SoulX-Transcriber

Soul-AILab

An end-to-end framework for multi-speaker transcription that jointly models who spoke, when, and what.

AI 简介

SoulX-Transcriber 是一个端到端的多说话人语音转录框架，统一建模“谁说、何时说、说什么”三大任务。它基于大型音频语言模型，支持重叠语音与快速轮替对话的联合说话人区分（diarization）与语音识别（ASR），输出带时间戳和说话人标签的结构化文本。项目采用单阶段联合建模，避免传统级联流水线的误差累积，具备鲁棒的抗噪与说话人分离能力。适用于会议记录、访谈整理、在线教育课堂转录等需精准说话人归属的多声道语音处理场景。

Python

Apache License 2.0

asr llm sd sdr speech-recognition

在 GitHub 查看官方网站

269

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+9

综合评分44.34

默认分支main

SoulX-Transcriber

Star 增长

加入交流群