
MOSS-Audio
OpenMOSS
MOSS-Audio is an open-source foundation model for unified audio understanding, enabling speech, sound, music, captioning, QA, and reasoning in real-world scenarios.
AI 简介
MOSS-Audio 是一个开源的音频理解模型,旨在实现语音、环境声音、音乐的理解以及音频字幕生成、时间感知问答和复杂推理等功能。该项目基于Python开发,具备DeepStack跨层特征注入与时间感知表示等核心技术特点,能够处理复杂的现实世界音频数据。提供了四种不同配置的模型,包括针对直接指令执行优化的Instruct版本和强化了思维链推理能力的Thinking版本。适用于需要高质量音频分析与理解的应用场景,如智能音箱、语音助手、音频内容自动标注等。
Python
569
Stars
39
Forks
8
Watchers
13
Issues
Star 增长
今日0
近 7 天+48
近 30 天+117
综合评分75.81
默认分支main