microsoft

VibeVoice

microsoft

Open-Source Frontier Voice AI

AI 简介

VibeVoice 是一个开源的前沿语音AI项目,旨在提供高质量的语音识别(ASR)和文本转语音(TTS)服务。其核心功能包括能够处理长达60分钟长音频的统一ASR模型,该模型支持超过50种语言,并能生成包含说话人、时间戳及内容结构化的转录文本;同时,它还提供了实时TTS能力,支持多种语言和风格的声音定制。技术上,VibeVoice采用了先进的深度学习架构以保证高性能与低延迟,且支持vLLM推理加速。该项目非常适合需要高效准确语音处理的应用场景,如会议记录自动化、多语种客户服务系统开发等。

Python
MIT License
49.2k
Stars
5.5k
Forks
242
Watchers
117
Issues

Star 增长

今日+50
近 7 天+1512
近 30 天+2332
综合评分120
默认分支main