
Kimi-Audio
MoonshotAI
Kimi-Audio, an open-source audio foundation model excelling in audio understanding, generation, and conversation
AI 简介
Kimi-Audio 是一个开源的音频基础模型,专注于音频理解、生成和对话。其核心功能包括自动语音识别、音频问答、自动音频字幕生成、语音情感识别以及声音事件/场景分类等,并在多个音频基准测试中取得了领先的成绩。技术上,Kimi-Audio 通过大规模预训练(超过1300万小时的音频和文本数据)结合创新的混合输入架构(连续声学向量与离散语义标记)来实现高效且准确的音频处理。该模型适用于需要高质量音频理解和生成能力的各种应用场景,如智能助手、语音交互系统或多媒体内容分析工具。
Python
4.6k
Stars
361
Forks
40
Watchers
105
Issues
Star 增长
今日0
近 7 天0
近 30 天+23
综合评分48.98
默认分支master