mimic-video

Video-Action Models for Generalizable Robot Control Beyond VLAs

AI 简介

mimic-video 是一个面向通用机器人控制的视频-动作模型（VAM）框架，旨在超越视觉-语言-动作模型（VLA）的局限性。其核心是将轻量级动作解码器条件化于冻结的预训练视频模型（如 Cosmos-Predict2）的隐状态上，无需微调视频主干网络，即可高效学习语言驱动的机器人策略；支持解耦的时间流设计，实现单次视频前向传播生成多个动作帧。项目提供 Bridge 和 LIBERO 数据集上的预训练检查点及完整训练/评估代码，适用于需强泛化能力、低计算开销的仿真与真实机器人策略迁移场景。