
LatentSync
bytedance
Taming Stable Diffusion for Lip Sync!
AI 简介
LatentSync 是一个基于音频条件的潜扩散模型的端到端唇同步方法,旨在生成高质量的音视频同步效果。该项目利用 Stable Diffusion 直接建模复杂的音频-视觉相关性,通过将音频嵌入与 U-Net 的交叉注意力层结合,实现了对原始视频和掩码帧的有效处理。其核心功能包括改善时间一致性、优化中文视频表现及降低训练所需的显存需求。适用于需要高质量唇同步效果的场景,如虚拟主播、电影后期制作等。
Python
Apache License 2.05.8k
Stars
945
Forks
77
Watchers
211
Issues
Star 增长
今日0
近 7 天+18
近 30 天+72
综合评分71.13
默认分支main