Omni2Sound

omni2sound

Omni2Sound — Your Multimodal Audio Generation Codebase (CVPR 2026 Highlight)

AI 简介

Omni2Sound 是一个面向视频-文本-音频跨模态生成的统一框架，支持视频+文本→音频（VT2A）、视频→音频（V2A）和文本→音频（T2A）三类任务。其技术特点是基于轻量级DiT主干网络，通过高质量多模态数据集SoundAtlas和三阶段渐进式多任务训练实现高性能；强调模型简洁性与数据/训练策略优化，具备强泛化能力，尤其在离屏音频合成与不完整文本输入等挑战场景下保持鲁棒性。适用于音视频内容生成、AI配音、教育素材制作及无障碍媒体生成等需要高保真、时序对齐音频输出的场景。

Python

Other

在 GitHub 查看

142

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分42.01

默认分支main

Omni2Sound

Star 增长

加入交流群