minimind-o

jingyaogong

🎙️ 「大模型」从0训练0.1B能听能说能看的全模态Omni模型！A 0.1B Omni model trained from scratch, capable of listening, speaking, and seeing!

AI 简介

MiniMind-O 是一个从零训练的0.1B全模态Omni模型，能够处理文本、语音和图像输入，并输出文本和流式语音。其核心功能包括多模态输入支持、实时打断与近似双工交互能力以及音色克隆等。项目采用PyTorch原生实现所有算法，不依赖第三方框架的高层抽象，使得在普通个人GPU上即可完成训练，在CPU上也能快速推理。MiniMind-O适合用于需要轻量级多模态AI解决方案的研究者和个人开发者，特别是那些希望从头开始理解和构建自己的全模态模型的人士。此外，项目提供了完整的代码、技术报告及两套训练数据集，便于初学者快速入门。

Python

Apache License 2.0

artificial-intelligence chatgpt omni

在 GitHub 查看官方网站

1.8k

Stars

211

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+98

近 30 天+1002

综合评分84.98

默认分支master