
WavFlow
facebookresearch
MultiModal Audio Generation in Raw Waveform Space.
AI 简介
WavFlow 是一个用于从视频和文本输入生成同步高保真音频的项目,直接在原始波形空间中进行处理,无需经过潜在压缩。该项目通过波形分块化和振幅提升技术,实现了基于直接x预测的稳定流匹配。WavFlow的核心功能包括支持多模态音频生成,并且在VGGSound (VT2A) 和AudioCaps (T2A) 基准测试中表现出色,证明了端到端波形生成可以达到与传统框架相媲美的声学丰富度、保真度和同步性。此项目适合需要高质量音频生成的应用场景,如虚拟现实、游戏开发或多媒体内容创作等。
Python
Other151
Stars
9
Forks
2
Watchers
1
Issues
Star 增长
今日0
近 7 天+12
近 30 天+118
综合评分59
默认分支main