Awesome-Multimodal-Large-Language-Models

BradyFU

:sparkles::sparkles:Latest Advances on Multimodal Large Language Models

AI 简介

这是一个聚焦多模态大语言模型（MLLM）前沿研究的开源资源整理项目，系统性汇总最新论文、模型、评测基准与技术综述。核心内容包括：面向视觉-语言-语音等多模态统一理解与生成的调研报告；VITA系列开源交互式多模态模型（支持实时视觉与语音交互）；以及MME、Video-MME-v2等权威评测基准与评估工具。项目强调链式推理、上下文学习、指令微调等关键技术路径，提供可复现的评测流程与数据集链接。适用于人工智能研究人员、多模态算法工程师及高校师生开展模型选型、性能对比与方法验证。

chain-of-thought in-context-learning instruction-following instruction-tuning large-language-models large-vision-language-model large-vision-language-models multi-modality multimodal-chain-of-thought multimodal-in-context-learning multimodal-instruction-tuning multimodal-large-language-models visual-instruction-tuning

在 GitHub 查看

17.9k

Stars

1.1k

Forks

291

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+28

综合评分68.96

默认分支main

Awesome-Multimodal-Large-Language-Models

Star 增长

加入交流群