[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-1200":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":9,"languages":9,"totalLinesOfCode":9,"stars":10,"forks":11,"watchers":12,"openIssues":13,"contributorsCount":14,"subscribersCount":14,"size":14,"stars1d":14,"stars7d":14,"stars30d":14,"stars90d":14,"forks30d":14,"starsTrendScore":14,"compositeScore":15,"rankGlobal":9,"rankLanguage":9,"license":9,"archived":16,"fork":16,"defaultBranch":17,"hasWiki":18,"hasPages":18,"topics":19,"createdAt":9,"pushedAt":9,"updatedAt":20,"readmeContent":21,"aiSummary":22,"trendingCount":14,"starSnapshotCount":14,"syncStatus":23,"lastSyncTime":24,"discoverSource":25},1200,"Camera-Transformer-1","gulucaptain\u002FCamera-Transformer-1","gulucaptain","🎬 Tell the camera where to go: CT-1 understands your intent and generates videos with precise, spatially-aware camera control.",null,308,60,39,1,0,5.36,false,"main",true,[],"2026-06-12 02:00:24","\u003Cdiv align=\"center\">\n\n\n\u003Cimg src=\"assets\u002Flogo.png\" alt=\"CT-1 Logo\" width=\"500\" \u002F>\n\n\u003Ch2>\n  CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-controllable Video Generation\n\u003C\u002Fh2>\n\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fgulucaptain.github.io\u002FCamera-Transformer-1\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐_Project_Page-CT--1-blue?style=for-the-badge\" alt=\"Project Page\"\u002F>\u003C\u002Fa>\n  &nbsp;\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.09201\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_Paper-ArXiv-red?style=for-the-badge\" alt=\"ArXiv\"\u002F>\u003C\u002Fa>\n  &nbsp;\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fgulucaptain\u002FCamera-Transformer-1\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💻_Code-Coming_Soon-gray?style=for-the-badge\" alt=\"Code Coming Soon\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp>\n  \u003Cstrong>Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, \u003Cbr> Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang\u003Cbr>\u003C\u002Fstrong>\n  \u003Cem>Fudan University; Tencent.\u003C\u002Fem>\n\u003C\u002Fp>\n\n\u003Cp>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fgulucaptain\u002FCamera-Transformer-1?style=social\" alt=\"Stars\"\u002F>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n---\n\n## 📋 Abstract\n\nCamera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. \n\nTo address these issues, we propose a novel **Vision-Language-Camera model**, termed **CT-1 (Camera Transformer 1)**, a specialized model designed to *transfer spatial reasoning knowledge to video generation* by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a *Wavelet-based Regularization Loss* in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. \n\nTo facilitate the training of CT-1, we design a dedicated data curation pipeline and construct **CT-200K**, a large-scale dataset containing over *47M frames*. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.\n\n---\n\n## 🔥 News\n\n| Date | Event |\n|------|-------|\n| 🟡 2026-04-10 | Project page released. Code coming soon. |\n\n---\n\n## 🧠 Framework Overview\n\nCT-1 follows a **\"Camera-Decision-First, Generation-Next\"** two-stage paradigm:\n\n```\nVision-Language Input (Image + Text)\n          │\n          ▼\n  ┌───────────────────┐\n  │  CT-1 (VLC Model) │  ← Diffusion Transformer + Wavelet Regularization Loss\n  └───────────────────┘\n          │\n          ▼\n   Camera Trajectories\n          │\n          ▼\n  ┌─────────────────────────┐\n  │  Video Diffusion Model  │  ← Camera controllable video generation\n  └─────────────────────────┘\n          │\n          ▼\n   Generated Video\n```\n\nThe framework consists of three main components:\n- **(a) Vision-Language Module** — for semantic embedding of image and text inputs\n- **(b) Diffusion Transformer Module** — for modeling camera trajectory distributions with Wavelet-based Regularization Loss\n- **(c) Controllable Video Generation Models** — synthesize videos conditioned on the predicted trajectories\n\n---\n\n## 🎬 Video Generation with CT-1\n\n> **Challenging Scenarios** — Forward motion & rotational motion across diverse scenes.\n>\n> 🔁 *Animated previews below (GIF).*\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cimg src=\"assets\u002Fct_1_shows\u002Fshow_case_1.gif\" width=\"768\"\u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cimg src=\"assets\u002Fct_1_shows\u002Fshow_case_2.gif\" width=\"768\"\u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cimg src=\"assets\u002Fct_1_shows\u002Fshow_case_3.gif\" width=\"768\"\u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cimg src=\"assets\u002Fct_1_shows\u002Fshow_case_4.gif\" width=\"768\"\u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n> 💡 For full video demos including camera trajectory visualizations, cross-model comparisons, and driving scenarios, please visit our [**Project Page**](https:\u002F\u002Fgulucaptain.github.io\u002FCamera-Transformer-1\u002F).\n\n---\n\n## ✨ Highlights\n\n- 🎯 **VLC Model**: First to formulate camera trajectory estimation as a vision-language understanding task\n- 🌊 **Wavelet-based Regularization Loss**: Novel frequency-domain loss for learning complex camera trajectory distributions\n- 📦 **CT-200K Dataset**: Large-scale dataset with 47M+ frames and dedicated curation pipeline\n- 🔌 **Cross-Model Compatibility**: CT-1 predicted trajectories are compatible with existing models (CameraCtrl, MotionCtrl, etc.)\n- 🚗 **Cross-Domain Generalization**: Validated on general scenes and driving scenarios\n\n---\n\n## 💻 Code\n\n> 🚧 **Coming Soon** — Code and model weights will be released.\n\nThe release will include:\n- [ ] CT-1 model code & weights\n- [ ] CT-200K dataset\n- [ ] Training pipeline\n- [ ] Inference demo\n- [ ] Evaluation scripts\n\n> 📌 The trajectory visualization code is available in our separate repository:  \n> [Camera Trajectories Visualization](https:\u002F\u002Fgithub.com\u002Fgulucaptain\u002FCamera-Trajectories-Visualization)\n\n---\n\n## 📎 Citation\n\nIf you find this work useful, please consider citing:\n\n```bibtex\n@article{zhao2026ct1,\n  title     = {CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-controllable Video Generation},\n  author    = {Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang},\n  journal   = {arXiv preprint: 2604.09201},\n  year      = {2026}\n}\n```\n\n---\n\n\u003Ca href=\"https:\u002F\u002Fwww.star-history.com\u002F#gulucaptain\u002FCamera-Transformer-1&Date\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=gulucaptain\u002FCamera-Transformer-1&type=Date&theme=dark\" \u002F>\n    \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=gulucaptain\u002FCamera-Transformer-1&type=Date\" \u002F>\n    \u003Cimg alt=\"Star History Chart\" src=\"https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=gulucaptain\u002FCamera-Transformer-1&type=Date\" width=\"450\" \u002F>\n  \u003C\u002Fpicture>\n\u003C\u002Fa>\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Csub>Built with ❤️ | \u003Ca href=\"https:\u002F\u002Fgulucaptain.github.io\u002FCamera-Transformer-1\u002F\">Project Page\u003C\u002Fa>\u003C\u002Fsub>\n\u003C\u002Fdiv>\n","CT-1是一个基于视觉-语言-相机模型的视频生成项目，旨在通过精确的空间感知相机控制来合成符合用户意图的视频。其核心技术包括一个结合了视觉-语言模块和扩散变换器模型的Camera Transformer，以及一种基于小波的正则化损失函数，用于学习复杂的相机轨迹分布。这些技术使得CT-1能够根据给定的文字或图像输入生成具有物理合理性且灵活可控的视频内容。适用于需要自动化生成高质量、空间感知视频的应用场景，如虚拟现实体验设计、电影特效制作等。实验结果显示，相比现有方法，CT-1在提高相机控制精度方面表现优异。",2,"2026-06-11 02:42:15","CREATED_QUERY"]