FunASR

modelscope

Industrial-grade speech recognition toolkit: 170x realtime, 50+ languages, speaker diarization, emotion detection, streaming, and OpenAI-compatible API.

AI 简介

FunASR 是一个面向工业落地的端到端语音识别（ASR）开源工具包，支持实时语音转写、说话人分离、情感识别、流式处理及类 OpenAI 的标准化 API 接口。其技术特点包括高实时性（170倍实时）、覆盖50+语种、集成 VAD、标点恢复、多模型架构（如 Paraformer、Conformer、RNN-T）及预训练模型即用能力。适用于智能客服、会议记录、音视频内容分析、无障碍服务等需高精度、低延迟语音理解的生产场景。

Python

MIT License

audio-visual-speech-recognition conformer dfsmn paraformer pretrained-model punctuation pytorch rnnt speaker-diarization speech-recognition speechgpt speechllm vad voice-activity-detection whisper

在 GitHub 查看官方网站

19.1k

Stars

1.9k

Forks

117

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+505

综合评分79.85

默认分支main

FunASR

Star 增长

加入交流群