mimic-video

mimic-video

mimic-video

Video-Action Models for Generalizable Robot Control Beyond VLAs

AI 简介

mimic-video项目通过从预训练视频模型中提取通用语言条件机器人策略(Video-Action Models / VAMs),实现超越传统视觉-语言动作(VLAs)的机器人控制。该项目利用视频模型对现实世界动态和行为的理解,高效地学习性能良好的动作解码器,而无需更新视频模型。采用解耦的视频与动作流时间,使得单次视频模型前向传递即可完成高效的推理。基于轻量级2B Cosmos-Predict2视频模型,mimic-video提供了在Bridge和LIBERO数据集上的训练检查点。适合需要灵活且高效地将视频理解能力转化为机器人操作指令的应用场景,如自动化仓储、服务机器人等。

Python
Apache License 2.0
266
Stars
25
Forks
2
Watchers
2
Issues

Star 增长

今日+2
近 7 天+5
近 30 天+31
综合评分53.84
默认分支main