
MMAudio
hkchengrex
[CVPR 2025] MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
AI 简介
MMAudio 是一个用于高质量视频到音频合成的项目,它能够根据视频和/或文本输入生成同步音频。该项目的核心创新在于多模态联合训练技术,支持在广泛的视听和音频-文本数据集上进行训练,并通过同步模块确保生成的音频与视频帧对齐。采用 Python 编写,基于深度学习框架 PyTorch 实现。适用于需要将视觉内容转换为匹配声音的应用场景,比如电影制作、虚拟现实体验增强等多媒体内容创作领域。
Python
MIT License2.2k
Stars
259
Forks
21
Watchers
9
Issues
Star 增长
今日+4
近 7 天+5
近 30 天+29
综合评分72.64
默认分支main