QwenLM

Qwen3-ASR

QwenLM

Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.

AI 简介

Qwen3-ASR是由阿里云Qwen团队开发的一系列开源自动语音识别模型,支持多语言的语音、音乐和歌词识别,同时具备语言检测和时间戳预测功能。该项目基于Python语言构建,拥有强大的多语言处理能力,能够识别52种语言及方言,并提供了一种新颖的非自回归语音对齐模型以实现11种语言的文本-语音配对。其核心优势在于利用大规模语音训练数据和基础模型Qwen3-Omni的强大音频理解能力,使得1.7B版本在开源ASR模型中达到了领先水平。适用于需要高精度多语言语音识别的应用场景,如跨国会议记录、多语种视频字幕生成等。

Python
Apache License 2.0
2.9k
Stars
290
Forks
10
Watchers
23
Issues

Star 增长

今日0
近 7 天+50
近 30 天+217
综合评分79.39
默认分支main