onevl

xiaomi-research

暂无描述

AI 简介

OneVL 是一个面向自动驾驶的视觉-语言-动作（VLA）模型框架，旨在实现高精度轨迹预测的同时兼顾推理效率与可解释性。其核心创新在于引入双模态辅助解码器，在训练阶段分别监督视觉和语言隐状态：视觉隐状态预测未来帧（t+0.5s/t+1.0s），语言隐状态重建显式思维链（CoT）文本；推理时丢弃解码器，将预训练好的隐标记前填充至提示中，达到仅输出答案级的低延迟，同时保留视觉与语言双重可解释性。适用于需要实时性与决策透明度并重的自动驾驶感知-规划任务。

Python

在 GitHub 查看

445

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+5

综合评分39.6

默认分支main

onevl

Star 增长

加入交流群