
4DThinker
zhangquanchen
4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
AI 简介
4DThinker 是一个用于动态空间理解的框架,通过四维影像帮助视觉-语言模型(VLMs)进行更有效的时空推理。其核心功能包括一个可扩展且无需标注的数据生成管道,该管道能够从原始视频中合成四维推理数据;以及动态影像微调(DIFT),它联合监督文本标记和四维潜变量以增强模型对动态视觉语义的理解。此外,4D强化学习(4DRL)进一步通过基于结果的奖励来解决复杂的推理任务。该项目适合需要在单目视频中实现高级别动态空间推理的应用场景,如自动驾驶、机器人导航等。
Python
Apache License 2.074
Stars
3
Forks
71
Watchers
1
Issues
Star 增长
今日+1
近 7 天+1
近 30 天+3
综合评分44.61
默认分支main