4DThinker

zhangquanchen

4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

AI 简介

4DThinker是一个面向动态空间理解的视觉语言模型框架，旨在提升模型对单目视频中四维（三维空间+时间）场景演化的推理能力。其核心技术包括：基于原始视频自动生成4D推理数据的无标注合成流水线、联合监督文本与4D隐空间表征的动态意象微调（DIFT）、以及面向结果奖励的4D强化学习（4DRL）。项目支持端到端训练与推理，适用于机器人导航、自动驾驶场景理解、视频时序推理等需建模连续空间动态变化的任务。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+1

综合评分41.91

默认分支main

4DThinker

Star 增长

加入交流群