
mini-omni
gpt-omni
open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.
AI 简介
Mini-Omni 是一个开源的多模态大型语言模型,能够实时处理语音输入和输出,实现边听边说边思考的对话能力。其核心功能包括实时端到端的语音到语音交流、同步生成文本和音频以及流式音频输出,无需额外的自动语音识别或文本转语音模型。该模型适用于需要即时语音交互的应用场景,如智能助手、客户服务机器人等。使用 Python 编写,并在 MIT 许可下发布,项目已获得 3546 个星标和 311 个分叉,表明其在社区中的受欢迎程度和技术价值。
Python
MIT License3.6k
Stars
309
Forks
79
Watchers
37
Issues
Star 增长
今日+3
近 7 天+6
近 30 天+12
综合评分69.67
默认分支main