Real-Time-Voice-Cloning

CorentinJ

Clone a voice in 5 seconds to generate arbitrary speech in real-time

AI 简介

这是一个基于深度学习的实时语音克隆工具，支持仅用5秒音频样本生成任意文本的合成语音。项目实现SV2TTS三阶段框架：使用GE2E声纹编码器提取说话人特征，Tacotron作为声学模型生成梅尔频谱，WaveRNN vocoder实时合成高保真语音。技术栈基于PyTorch，兼容Windows/Linux，依赖轻量、开箱即用。适用于语音助手定制、无障碍辅助、内容创作等对低延迟和快速适配有要求的非商用场景，但音质不及当前主流商业SaaS服务。

Python

Other

deep-learning python pytorch tensorflow tts voice-cloning

在 GitHub 查看

60k

Stars

9.4k

Forks

937

Watchers

163

Issues

Star 增长

今日0

近 7 天0

近 30 天+55

综合评分75.5

默认分支master

Real-Time-Voice-Cloning

Star 增长

加入交流群