
minimind-o
jingyaogong
🎙️ 「大模型」从0训练0.1B能听能说能看的全模态Omni模型!A 0.1B Omni model trained from scratch, capable of listening, speaking, and seeing!
AI 简介
MiniMind-O 是一个从零训练的0.1B全模态Omni模型,能够处理文本、语音和图像输入,并输出文本和流式语音。其核心功能包括多模态输入支持、实时打断与近似双工交互能力以及音色克隆等。项目采用PyTorch原生实现所有算法,不依赖第三方框架的高层抽象,使得在普通个人GPU上即可完成训练,在CPU上也能快速推理。MiniMind-O适合用于需要轻量级多模态AI解决方案的研究者和个人开发者,特别是那些希望从头开始理解和构建自己的全模态模型的人士。此外,项目提供了完整的代码、技术报告及两套训练数据集,便于初学者快速入门。
Python
Apache License 2.01.8k
Stars
211
Forks
14
Watchers
3
Issues
Star 增长
今日0
近 7 天+98
近 30 天+1002
综合评分84.98
默认分支master