chandar-lab

semantic-wm

chandar-lab

repository for training action-conditioned latent diffusion world models for robot video generation

AI 简介

该项目旨在训练动作条件下的潜扩散世界模型,用于机器人视频生成和策略评估。它支持多种编码器如VAE、DINOv2-based RAE等,并通过语义适配器将高维特征压缩到紧凑的96维空间中,再利用轻量级CNN进行像素解码。此外,项目提供了流匹配与DDPM两种目标函数的支持以及多视角功能,适用于从单视图预训练权重转移到三摄像头设置。该代码库适合于研究如何选择更有利于机器人世界模型的潜在空间,尤其是在需要保持动作信息、任务进度及规划效用的场景下使用。

Python
64
Stars
2
Forks
52
Watchers
3
Issues

Star 增长

今日0
近 7 天+4
近 30 天+11
综合评分41.53
默认分支main