WavFlow

facebookresearch

MultiModal Audio Generation in Raw Waveform Space.

AI 简介

WavFlow 是一个面向多模态音频生成的深度学习模型，支持从视频和文本输入直接生成高保真、时序同步的原始波形音频。其核心技术包括波形分块（waveform patchifying）、幅度提升（amplitude lifting）及基于流匹配的端到端 x-prediction 训练范式，完全绕过潜在空间压缩，在 VGGSound 和 AudioCaps 等基准上达到与主流 latent-based 方法相当的音质与同步精度。适用于需要高质量原始波形输出的多模态音视频合成任务，如跨模态内容生成、辅助声学建模及无编解码器约束的音频生成研究。

Python

Other

在 GitHub 查看

154

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分43.12

默认分支main

WavFlow

Star 增长

加入交流群