Soul-AILab

SoulX-Transcriber

Soul-AILab

An end-to-end framework for multi-speaker transcription that jointly models who spoke, when, and what.

AI 简介

SoulX-Transcriber 是一个用于多说话人转录的端到端框架,能够同时识别谁在说话、何时说话以及说了什么。该项目采用统一的模型架构,直接学习说话人归属、时间戳分割和语音转文字,适用于多人对话场景,特别是在存在重叠或快速转换的对话中表现出色。基于 Python 语言开发,并且支持 Apache License 2.0 开源协议,SoulX-Transcriber 在 AISHELL-4 和 AliMeeting 基准测试上展示了先进的性能,能生成包含时间戳、说话人标签及文本内容的一体化输出结果,非常适合需要高精度多说话人转录的应用环境,如会议记录、播客分析等。

Python
Apache License 2.0
229
Stars
10
Forks
1
Watchers
4
Issues

Star 增长

今日+4
近 7 天+63
近 30 天+104
综合评分81.12
默认分支main