MGM

JIA-Lab-research

Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"

AI 简介

Mini-Gemini（MGM）是一个轻量级多模态视觉语言模型框架，专注于提升小规模模型在图像理解、推理与生成任务上的综合能力。其核心技术包括双视觉编码器架构（支持低分辨率全局建模与高分辨率细节捕捉）、兼容多种参数量（2B–34B）的密集与MoE大语言模型主干，并基于LLaVA进行扩展优化。项目支持LLaMA3等主流语言模型底座，提供开源模型、训练数据、评估脚本及在线演示。适用于资源受限场景下的多模态AI研发、学术研究、教育演示及边缘端视觉语言应用原型开发。

Python

Apache License 2.0

generation large-language-models vision-language-model

在 GitHub 查看

3.3k

Stars

275

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分59.62

默认分支main

MGM

Star 增长

加入交流群