
Qwen-VLA
QwenLM
The official repository of Qwen-VLA
AI 简介
Qwen-VLA 是一个统一的视觉-语言-动作通用模型,基于 Qwen3.5-4B 视觉-语言骨干和1.15B DiT流匹配动作解码器构建。其核心功能包括将操作、导航和轨迹预测整合到一个共享的动作与轨迹预测框架中,通过实体感知提示条件实现跨任务、环境和机器人实体的异构数据学习,无需为每个平台单独设置输出头。该模型适用于需要在不同任务、环境和机器人实体间进行高效学习和适应的场景,如机器人控制、自主导航等。此外,Qwen-VLA 采用渐进式训练方法,支持从大规模动作预训练到强化学习的过程,展现出强大的现实世界泛化能力,能够在未见过的情况下优于专门针对特定任务优化的模型。
560
Stars
20
Forks
22
Watchers
9
Issues
Star 增长
今日+13
近 7 天+69
近 30 天+328
综合评分94.97
默认分支main