TMElyralab

MuseTalk

TMElyralab

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

AI 简介

MuseTalk 是一个实时高质量的唇形同步模型,能够在输入音频的驱动下修改面部视频以实现精准的唇部动作同步。该项目采用Python开发,通过在ft-mse-vae的潜在空间中训练模型,实现了对256x256大小面部区域的精确控制,并支持中文、英文和日文等多种语言的音频输入。MuseTalk利用感知损失、GAN损失及同步损失进行优化训练,结合时空数据采样策略,在保持高视觉质量的同时提升了唇形同步的准确性,能够在NVIDIA Tesla V100上达到30fps以上的实时推断速度。此项目适用于需要高质量虚拟人物解决方案的场景,如虚拟主播、在线教育或娱乐内容制作等领域。

Python
Other
6k
Stars
859
Forks
63
Watchers
156
Issues

Star 增长

今日0
近 7 天+45
近 30 天+206
综合评分84.8
默认分支main