QuentinFuxa

WhisperLiveKit

QuentinFuxa

Simultaneous speech-to-text models

AI 简介

WhisperLiveKit 是一个用于实时语音转文字的自托管系统,具备超低延迟和说话人识别功能。项目基于最新的Simul-Whisper/Streaming技术,采用AlignAtt策略实现高效低延迟的语音转录;同时集成了NLLW技术,支持200种语言之间的即时翻译。它还利用了Streaming Sortformer和Diart等前沿技术进行实时说话人分离,确保在多说话人场景下的准确性和流畅性。此外,WhisperLiveKit通过Voxtral Mini模型增强了对多种语言的支持,并使用Silero VAD来提高语音活动检测的精度。该项目特别适用于需要快速响应且能区分不同发言者的在线会议、直播字幕生成及远程教育等场景。

Python
Apache License 2.0
10.4k
Stars
1.1k
Forks
61
Watchers
17
Issues

Star 增长

今日+21
近 7 天+58
近 30 天+147
综合评分119.1
默认分支main