
Mega-ASR
xzf-thu
First foundation ASR built for the real world - 7 atomic acoustic conditions, 54 compound scenarios, 2.6M samples, and up to ~30% gains over SOTA where every other model falls apart. **You'll come back to MEGA-ASR, after the rest fail in the wild. ⭐**
AI 简介
Mega-ASR 是一个面向全场景鲁棒语音识别的基础模型,通过在7种基本声学条件和54种复合声学场景上进行系统训练来实现。该项目基于260万条包含噪声、远场语音、遮挡、回声和混响、录音伪影、电子失真及传输中断等多样音频样本构建,采用A2S-SFT与DG-WGPO强化学习技术,在复杂声学环境中相较于现有领先开源及闭源模型性能提升近30%。适用于需要高精度语音识别的现实世界应用,如智能家居、车载系统、远程会议等复杂声音环境下的语音处理任务。
Python
976
Stars
63
Forks
16
Watchers
20
Issues
Star 增长
今日+3
近 7 天+61
近 30 天+949
综合评分82.42
默认分支main