
whisperX
m-bain
WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
AI 简介
WhisperX 是一个基于 Whisper 模型的自动语音识别系统,支持词级别时间戳和说话人分离。其核心功能包括通过 wav2vec2 对齐提供准确的词级别时间戳、使用 pyannote-audio 实现多说话人识别,并通过 VAD 预处理减少幻觉现象。技术上,WhisperX 采用 faster-whisper 后端,在大型模型下仅需不到 8GB 的 GPU 内存即可实现 70 倍实时转录速度。该项目适用于需要高精度时间戳及说话人标识的会议记录、访谈等场景,特别适合 Zoom、Google Meet 和 Microsoft Teams 等在线会议平台的音频转录需求。
Python
BSD 2-Clause "Simplified" License22.4k
Stars
2.3k
Forks
158
Watchers
168
Issues
Star 增长
今日+17
近 7 天+128
近 30 天+592
综合评分120
默认分支main