Hallo-Live

fudan-generative-vision

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation

AI 简介

Hallo-Live 是一个面向实时流式场景的音视频联合驱动虚拟人生成框架，支持文本输入驱动同步生成高质量说话视频与语音。其核心技术基于因果双流扩散Transformer（DiT），采用跨模态块因果掩码、音频-视频KV缓存与奖励加权双流DMD优化，在双H200 GPU上实现20.38 FPS生成速度与0.94秒端到端延迟，兼顾唇动同步精度、画面保真度与语音自然度。适用于虚拟主播、实时数字人交互、远程会议AI形象等低延迟音视频协同生成场景。

Python

MIT License

audio-video-gen avatars diffusion-models

在 GitHub 查看官方网站

326

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+23

综合评分47.45

默认分支main

Hallo-Live

Star 增长

加入交流群