Camera-Transformer-1

gulucaptain

🎬 Tell the camera where to go: CT-1 understands your intent and generates videos with precise, spatially-aware camera control.

AI 简介

CT-1是一个基于视觉-语言-相机模型的视频生成项目，旨在通过精确的空间感知相机控制来合成符合用户意图的视频。其核心技术包括一个结合了视觉-语言模块和扩散变换器模型的Camera Transformer，以及一种基于小波的正则化损失函数，用于学习复杂的相机轨迹分布。这些技术使得CT-1能够根据给定的文字或图像输入生成具有物理合理性且灵活可控的视频内容。适用于需要自动化生成高质量、空间感知视频的应用场景，如虚拟现实体验设计、电影特效制作等。实验结果显示，相比现有方法，CT-1在提高相机控制精度方面表现优异。

在 GitHub 查看

308

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分42.36

默认分支main