
StyleTTS2
yl4579
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
AI 简介
StyleTTS 2 是一个通过风格扩散和对抗训练与大型语音语言模型结合实现接近人类水平的文本转语音(TTS)系统。该项目利用扩散模型将风格建模为潜在随机变量,无需参考语音即可生成最适合文本的风格,同时采用如WavLM这样的大型预训练语音语言模型作为判别器,并引入可微分的时长建模技术,以提升合成语音的自然度。StyleTTS 2 在单说话人和多说话人的数据集上均达到了与人类录音相当甚至超越的效果,特别适合需要高质量、多样化语音合成的应用场景,比如虚拟助手、有声读物制作等。此外,该项目还展示了在零样本说话人适应任务上的优越性能。
Python
MIT License6.3k
Stars
693
Forks
82
Watchers
104
Issues
Star 增长
今日+8
近 7 天+19
近 30 天+35
综合评分93.52
默认分支main