omni2sound

Omni2Sound

omni2sound

Omni2Sound — Your Multimodal Audio Generation Codebase (CVPR 2026 Highlight)

AI 简介

Omni2Sound 是一个用于从视频、文本或两者生成时间对齐且语义准确音频的统一框架。该项目能够处理视频+文本转音频(VT2A)、视频转音频(V2A)以及文本转音频(T2A)三种任务,并在单一模型中实现这些功能。技术上,Omni2Sound 基于现成的 DiT 模型架构,通过高质量的数据集 SoundAtlas 和三阶段渐进式多任务训练计划来提升性能,而无需复杂的定制化架构。这使得 Omni2Sound 在所有三个任务上都能达到最先进的表现,特别是在处理屏幕外声音合成和不完整文本输入等挑战性场景时依然保持稳健。该工具适用于需要高质量、多样化音频生成的应用场景,如电影制作、游戏开发或任何需要将视觉与听觉内容结合的创意项目。此外,其开源友好的特性也便于研究者和开发者进行进一步的研究与应用扩展。

Python
Other
138
Stars
3
Forks
1
Watchers
0
Issues

Star 增长

今日+2
近 7 天+6
近 30 天+13
综合评分50.11
默认分支main