
onevl
xiaomi-research
暂无描述
AI 简介
OneVL 是一个面向自动驾驶的视觉-语言-动作(VLA)框架,通过引入双模态辅助解码器来监督紧凑的潜在标记,从而编码语言推理和未来场景动态,实现了最先进的轨迹预测精度,并且推断延迟与仅回答模型相当。其核心技术特点在于结合了显式链式思维(CoT)的可解释性和隐式CoT的速度优势,使用视觉潜在标记`v`和语言潜在标记`l`,在训练时分别由视觉辅助解码器预测未来的帧图像和语言辅助解码器重建CoT文本,在推理阶段则移除解码器,将潜在标记预填充到提示中以加速处理。适用于需要高效准确地理解环境并作出决策的自动驾驶场景。
Python
424
Stars
47
Forks
3
Watchers
2
Issues
Star 增长
今日0
近 7 天+20
近 30 天+87
综合评分57.74
默认分支main