VibeVoice

microsoft

Open-Source Frontier Voice AI

AI 简介

VibeVoice 是一个开源的前沿语音人工智能项目，提供高质量的语音合成（TTS）与语音识别（ASR）能力。核心功能包括支持多语言、长时音频（60分钟单次处理）的结构化语音转写（含说话人、时间戳与内容），以及实时低延迟的文本转语音生成；技术上采用统一架构设计，支持 Hugging Face Transformers 集成、vLLM 加速推理，并开放微调代码。适用于会议记录、音视频内容分析、无障碍交互、智能客服等需高精度、长上下文语音理解与自然语音生成的场景。

Python

MIT License

在 GitHub 查看官方网站

50k

Stars

5.6k

Forks

251

Watchers

122

Issues

Star 增长

今日0

近 7 天0

近 30 天+360

综合评分80

默认分支main

VibeVoice

Star 增长

加入交流群