vits

jaywalnut310

VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

AI 简介

VITS 是一个基于变分自编码器与对抗学习的端到端文本转语音（TTS）模型，支持单阶段训练与并行音频合成。其核心采用条件变分推断结合归一化流建模，引入随机时长预测器以捕捉文本到语音的一对多映射关系（如不同节奏、语调），显著提升合成语音的自然度与表现力。项目基于 PyTorch 实现，提供预训练模型与交互式在线演示，在单说话人（LJ Speech）和多说话人（VCTK）数据集上均达到接近真实录音的主观评测得分（MOS）。适用于高保真语音合成研究、个性化语音克隆及低延迟TTS系统开发等场景。

Python

MIT License

deep-learning pytorch speech-synthesis text-to-speech tts

在 GitHub 查看官方网站

7.9k

Stars

1.4k

Forks

Watchers

159

Issues

Star 增长

今日0

近 7 天0

近 30 天+7

综合评分66.13

默认分支main

vits

Star 增长

加入交流群