
speech-to-speech
huggingface
Build local voice agents with open-source models
AI 简介
huggingface/speech-to-speech 是一个用于构建本地语音代理的开源项目。它通过整合语音活动检测(VAD)、语音转文字(STT)、语言模型(LM)和文字转语音(TTS)四个模块,实现端到端的语音交互功能。该项目支持多种主流模型,如Silero VAD、Whisper STT、Hugging Face Hub上的多种语言模型以及多个高质量TTS方案,确保了高度的灵活性与可扩展性。其设计注重模块化,便于用户根据需求更换或自定义各个组件。此外,speech-to-speech 提供了包括实时处理、服务器/客户端模式、WebSocket通信等多种使用方式,适用于开发智能助手、语音识别系统等场景。
Python
Apache License 2.04.9k
Stars
583
Forks
45
Watchers
74
Issues
Star 增长
今日0
近 7 天+22
近 30 天+120
综合评分81.3
默认分支main