mini-omni

gpt-omni

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.

AI 简介

Mini-Omni 是一个开源的轻量级多模态大语言模型，支持端到端实时语音输入与流式音频输出的对话能力。其核心特点是无需依赖独立ASR/TTS模块，即可实现语音识别、语言理解与语音合成的一体化推理，并支持“边思考边说话”的同步文本与音频生成。模型采用流式处理架构，兼顾低延迟与高响应性，适用于智能语音助手、实时人机语音交互、无障碍语音服务等对实时性要求较高的场景。

Python

MIT License

在 GitHub 查看官方网站

3.6k

Stars

311

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分59.48

默认分支main

mini-omni

Star 增长

加入交流群