SenseVoice

FunAudioLLM

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

AI 简介

SenseVoice 是一个面向多语种语音理解的端到端基础模型，支持自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。其采用非自回归架构，推理速度达 Whisper 的 15 倍，支持超 50 种语言，在高精度语音转写基础上，同步输出情感标签（如喜悦、悲伤）与常见音事件（如笑声、咳嗽、掌声）。适用于实时语音分析、智能客服质检、多语种会议记录、人机交互行为建模等对低延迟与多任务联合理解有要求的场景。

Other

ai aigc asr audio-event-classification cross-lingual gpt-4o llm multilingual python pytorch speech-emotion-recognition speech-recognition speech-to-text

在 GitHub 查看官方网站

8.8k

Stars

791

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+128

综合评分74.7

默认分支main

SenseVoice

Star 增长

加入交流群