
MGM
JIA-Lab-research
Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"
AI 简介
Mini-Gemini是一个基于多模态视觉语言模型的框架,旨在挖掘大规模语言模型在图像理解、推理和生成方面的潜力。该项目支持从2B到34B参数规模的密集型和混合专家系统(MoE)大型语言模型,采用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,以增强模型的多模态处理能力。Mini-Gemini基于LLaVA构建,并已发布包括论文、代码、预训练模型及数据集在内的完整资源。此项目适用于需要结合文本与图像信息进行复杂任务处理的应用场景,如跨模态搜索、内容生成或智能问答等。
Python
Apache License 2.03.3k
Stars
275
Forks
26
Watchers
60
Issues
Star 增长
今日0
近 7 天0
近 30 天+1
综合评分59.42
默认分支main