StyleTTS2

yl4579

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

AI 简介

StyleTTS2 是一个面向高自然度语音合成的端到端文本转语音（TTS）模型。它创新性地结合风格扩散（style diffusion）与基于大语音语言模型（如WavLM）的对抗训练，无需参考语音即可自适应生成多样化、高保真的说话风格；采用可微时长建模实现端到端优化，并在LJSpeech和VCTK等基准上达到或超越人类录音水平。项目支持单/多说话人建模、零样本说话人适配及微调，适用于语音助手、有声内容生成、无障碍交互等对语音自然度和风格可控性要求较高的场景。

Python

MIT License

adversarial-training deep-learning diffusion-models gan latent-diffusion latent-diffusion-models pytorch speaker-adaptation speech-synthesis text-to-speech tts wavlm

在 GitHub 查看

6.3k

Stars

692

Forks

Watchers

104

Issues

Star 增长

今日0

近 7 天0

近 30 天+8

综合评分65.32

默认分支main

StyleTTS2

Star 增长

加入交流群