FunAudioLLM

SenseVoice

FunAudioLLM

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

AI 简介

SenseVoice 是一个多语言语音理解模型,具备自动语音识别(ASR)、语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等功能。该模型使用超过40万小时的数据进行训练,支持50多种语言,并在多语言语音识别性能上超越了Whisper模型。此外,SenseVoice还拥有出色的情感识别能力,能够检测背景音乐、掌声、笑声等常见的人机交互事件。其小规模版本采用非自回归端到端框架,实现了极低的推理延迟,处理10秒音频仅需70毫秒。项目提供了便捷的微调脚本和服务部署管道,适用于需要高精度多语言语音处理及情感分析的应用场景,如客户服务、智能助手等。

Python
Other
8.5k
Stars
778
Forks
63
Watchers
2
Issues

Star 增长

今日+57
近 7 天+171
近 30 天+391
综合评分114.67
默认分支main