LatentSync

bytedance

Taming Stable Diffusion for Lip Sync!

AI 简介

LatentSync 是一个基于潜在扩散模型的端到端语音驱动唇形同步方法，直接在 Stable Diffusion 的潜空间中建模音频-视频关联，无需中间运动表征或像素级生成。其核心采用 Whisper 提取音频嵌入，通过 U-Net 中的跨注意力机制融合音频与视频潜表示，并引入 TREPA、LPIPS 和 SyncNet 多目标损失提升唇动准确性与时序一致性；支持高分辨率（512×512）视频生成，显存占用优化至20GB。适用于虚拟人驱动、AI 视频配音、数字人直播等对唇音同步精度和生成质量要求较高的场景。

Python

Apache License 2.0

diffusion-models lipsync research video-gen virtual-avatars

在 GitHub 查看官方网站

5.8k

Stars

958

Forks

Watchers

212

Issues

Star 增长

今日0

近 7 天0

近 30 天+42

综合评分69.15

默认分支main

LatentSync

Star 增长

加入交流群