
Hallo-Live
fudan-generative-vision
Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation
AI 简介
Hallo-Live 是一个实时流媒体联合音频-视频虚拟形象生成框架。该项目采用因果双流DiT模型,能够同步生成虚拟形象的视频和语音,具有20.38 FPS的处理速度和0.94秒的延迟,同时保持高精度的唇形同步、视觉保真度和语音质量。其核心技术包括使用跨模态未来扩展块因果掩码进行阶段I训练,以及在阶段II训练中通过音频-视频KV缓存和奖励加权双流DMD优化自回归自我展开轨迹。适用于需要高质量实时互动虚拟形象的应用场景,如在线教育、虚拟主播或远程会议等。
Python
MIT License222
Stars
35
Forks
17
Watchers
6
Issues
Star 增长
今日0
近 7 天+33
近 30 天+146
综合评分71.17
默认分支main