whisperX

m-bain

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

AI 简介

WhisperX 是一个基于 Whisper 模型的自动语音识别系统，支持词级别时间戳和说话人分离。其核心功能包括通过 wav2vec2 对齐提供准确的词级别时间戳、使用 pyannote-audio 实现多说话人识别，并通过 VAD 预处理减少幻觉现象。技术上，WhisperX 采用 faster-whisper 后端，在大型模型下仅需不到 8GB 的 GPU 内存即可实现 70 倍实时转录速度。该项目适用于需要高精度时间戳及说话人标识的会议记录、访谈等场景，特别适合 Zoom、Google Meet 和 Microsoft Teams 等在线会议平台的音频转录需求。

Python

BSD 2-Clause "Simplified" License

asr speech speech-recognition speech-to-text whisper

在 GitHub 查看

22.4k

Stars

2.3k

Forks

158

Watchers

168

Issues

Star 增长

今日+17

近 7 天+128

近 30 天+592

综合评分120

默认分支main