Kimi-Audio

MoonshotAI

Kimi-Audio, an open-source audio foundation model excelling in audio understanding, generation, and conversation

AI 简介

Kimi-Audio 是一个开源的音频基础模型，专注于音频理解、生成与语音对话任务。它采用混合音频输入（连续声学向量+离散语义令牌）与大语言模型核心架构，支持自动语音识别（ASR）、音频问答（AQA）、语音情感识别（SER）、声事件分类（SEC）及端到端语音对话等多任务统一处理。模型基于超1300万小时多源音频与文本数据预训练，在多项音频基准测试中达到领先水平。适用于智能语音助手、无障碍交互、音视频内容分析、教育语音反馈等需要强泛化能力的音频AI应用。

Python

在 GitHub 查看

4.7k

Stars

362

Forks

Watchers

105

Issues

Star 增长

今日0

近 7 天0

近 30 天+8

综合评分57.48

默认分支master

Kimi-Audio

Star 增长

加入交流群