huggingface

speech-to-speech

huggingface

Build local voice agents with open-source models

AI 简介

huggingface/speech-to-speech 是一个用于构建本地语音代理的开源项目。它通过整合语音活动检测(VAD)、语音转文字(STT)、语言模型(LM)和文字转语音(TTS)四个模块,实现端到端的语音交互功能。该项目支持多种主流模型,如Silero VAD、Whisper STT、Hugging Face Hub上的多种语言模型以及多个高质量TTS方案,确保了高度的灵活性与可扩展性。其设计注重模块化,便于用户根据需求更换或自定义各个组件。此外,speech-to-speech 提供了包括实时处理、服务器/客户端模式、WebSocket通信等多种使用方式,适用于开发智能助手、语音识别系统等场景。

Python
Apache License 2.0
4.9k
Stars
583
Forks
45
Watchers
74
Issues

Star 增长

今日0
近 7 天+22
近 30 天+120
综合评分81.3
默认分支main