MoonshotAI

Kimi-Audio

MoonshotAI

Kimi-Audio, an open-source audio foundation model excelling in audio understanding, generation, and conversation

AI 简介

Kimi-Audio 是一个开源的音频基础模型,专注于音频理解、生成和对话。其核心功能包括自动语音识别、音频问答、自动音频字幕生成、语音情感识别以及声音事件/场景分类等,并在多个音频基准测试中取得了领先的成绩。技术上,Kimi-Audio 通过大规模预训练(超过1300万小时的音频和文本数据)结合创新的混合输入架构(连续声学向量与离散语义标记)来实现高效且准确的音频处理。该模型适用于需要高质量音频理解和生成能力的各种应用场景,如智能助手、语音交互系统或多媒体内容分析工具。

Python
4.6k
Stars
361
Forks
40
Watchers
105
Issues

Star 增长

今日0
近 7 天0
近 30 天+23
综合评分48.98
默认分支master