
VibeVoice
microsoft
Open-Source Frontier Voice AI
AI 简介
VibeVoice 是一个开源的前沿语音AI项目,旨在提供高质量的语音识别(ASR)和文本转语音(TTS)服务。其核心功能包括能够处理长达60分钟长音频的统一ASR模型,该模型支持超过50种语言,并能生成包含说话人、时间戳及内容结构化的转录文本;同时,它还提供了实时TTS能力,支持多种语言和风格的声音定制。技术上,VibeVoice采用了先进的深度学习架构以保证高性能与低延迟,且支持vLLM推理加速。该项目非常适合需要高效准确语音处理的应用场景,如会议记录自动化、多语种客户服务系统开发等。
Python
MIT License49.2k
Stars
5.5k
Forks
242
Watchers
117
Issues
Star 增长
今日+50
近 7 天+1512
近 30 天+2332
综合评分120
默认分支main