
NAVA
ernie-research
Official Code of NAVA: Native Audio-Visual Alignment for Generation.
AI 简介
NAVA 是一个用于生成同步音频和视频的框架,它通过上下文条件下的原生音视频对齐来实现联合生成。项目采用 Align-then-Fuse MMDiT 架构,逐步建立模态感知对齐与统一的音视频去噪过程。此外,NAVA 引入了基于上下文的音色条件控制,将参考音色线索绑定到相应的语音片段上,从而增强了可控性。此框架仅用 6.3B 参数就实现了卓越的音视频同步效果及视频质量,并且支持多音色语音控制。适用于需要高质量、同步音视频内容生成的场景,如虚拟人物制作、游戏开发等。提供了完整的端到端解决方案,包括推理管道、交互式演示以及训练代码,便于用户快速上手和进一步开发。
Python
最后更新 2026年6月8日活跃183
Stars
20
Forks
3
Watchers
7
Issues
Star 增长
今日+5
近 7 天+85
近 30 天+145
综合评分80.97
默认分支main