MOSS-Audio

OpenMOSS

MOSS-Audio is an open-source foundation model for unified audio understanding, enabling speech, sound, music, captioning, QA, and reasoning in real-world scenarios.

AI 简介

MOSS-Audio 是一个开源的统一音频理解基础模型，支持语音、环境音、音乐的多任务理解与生成，涵盖音频描述、时间感知问答及复杂推理。其技术特点包括DeepStack跨层特征注入、时间感知表征建模，并提供4B/8B参数规模的Instruct（指令跟随）与Thinking（思维链推理）双系列模型，支持LoRA与全参微调。适用于智能语音助手、多媒体内容分析、无障碍音频服务及科研型音频AI系统等真实场景。

Python

在 GitHub 查看官方网站

596

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+13

综合评分47.17

默认分支main

MOSS-Audio

Star 增长

加入交流群