jasonppy

VoiceCraft

jasonppy

Zero-Shot Speech Editing and Text-to-Speech in the Wild

AI 简介

VoiceCraft 是一个用于零样本语音编辑和文本转语音的神经编解码语言模型,特别适用于处理包括有声书、网络视频和播客在内的野外数据。该项目的核心功能是仅需几秒钟的参考音频即可克隆或编辑未见过的声音,并且在语音编辑和零样本文本转语音方面表现出色。技术上,它通过令牌填充机制实现高质量的音频生成与修改。适合需要快速生成特定风格或模仿特定人声音的应用场景,如内容创作、虚拟助手个性化等。此外,项目提供了多种部署方式,包括Colab、Docker以及本地运行,方便用户根据需求选择合适的使用方法。

Jupyter Notebook
Other
8.5k
Stars
795
Forks
97
Watchers
95
Issues

Star 增长

今日0
近 7 天+5
近 30 天+10
综合评分68.2
默认分支master