WhisperLiveKit

QuentinFuxa

Simultaneous speech-to-text models

AI 简介

WhisperLiveKit 是一个面向实时语音交互场景的自托管语音识别系统，支持超低延迟流式语音转文本与说话人角色识别。其核心整合了多项前沿同步语音处理技术（如 Simul-Whisper、WhisperStreaming、Streaming Sortformer），结合 Silero VAD 实现精准语音活动检测，并通过 NLLW 支持 200 种语言的实时翻译。系统采用增量式缓冲与上下文保持策略，避免传统 Whisper 分段处理导致的截断和失真问题。适用于在线会议实时字幕、远程教育语音记录、客服语音分析等对延迟敏感、需多说话人区分及多语种支持的工业级语音应用。

Python

Apache License 2.0

在 GitHub 查看

10.5k

Stars

1.1k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+32

综合评分72.31

默认分支main

WhisperLiveKit

Star 增长

加入交流群