NAVA

ernie-research

Official Code of NAVA: Native Audio-Visual Alignment for Generation.

AI 简介

NAVA是一个面向生成任务的原生音视频对齐框架，旨在实现高质量、强同步的联合音视频生成。其核心采用Align-then-Fuse MMDiT架构，在专用对齐空间中建模音视频对应关系，并通过上下文条件引导对齐表征；支持原生立体声生成、基于参考音频的音色绑定控制（Timbre-in-Context Conditioning）、文本驱动的镜头控制及多宽高比输出。项目提供完整训练/推理代码与Gradio交互演示，适用于AI视频生成、语音驱动视频、可控TTS合成等研究与原型开发场景。

Python

在 GitHub 查看

207

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+4

综合评分41.54

默认分支main

NAVA

Star 增长

加入交流群