Mondo-Robotics

DiT4DiT

Mondo-Robotics

This is the official code repo for DiT4DiT, a Vision-Action-Model (VAM) framework that combines video generation model with flow-matching-based action prediction for generalizable robotic manipulation.

AI 简介

DiT4DiT 是一个结合视频生成模型与基于流匹配的动作预测的视觉-动作-模型 (VAM) 框架,旨在实现通用的机器人操作。其核心功能包括通过视频生成变换器和动作预测技术,支持桌面及全身控制任务,尤其在实时全身体人形机器人控制方面表现出色。该项目采用 Python 编写,是首个能够高效实现这一目标的 VAM 框架。适用于需要高度灵活性和适应性的机器人应用场景,如仓库整理、家具移动以及生产线作业等复杂环境下的自动化任务处理。

Python
MIT License
335
Stars
15
Forks
2
Watchers
9
Issues

Star 增长

今日+18
近 7 天+27
近 30 天+88
综合评分85.91
默认分支main