LLaVA-CoT

PKU-YuanGroup

[ICCV 2025] LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning

AI 简介

LLaVA-CoT 是一个支持链式思维（Chain-of-Thought）推理的开源视觉语言模型，旨在提升多模态大模型在复杂任务中的系统性、分步推理能力。其核心特点是无需人工标注推理路径即可自发生成结构化中间步骤，基于 Llama-3.2V 架构实现 11B 参数规模，在 AI2D、MMStar 等六个权威多模态基准上超越 Gemini-1.5-Pro、GPT-4o-mini 等主流模型。项目提供完整训练代码、10 万条高质量 CoT 多模态数据集、轻量级推理脚本及 Gradio 在线演示，适用于需要深度视觉理解与逻辑推演的研究与应用，如科学图表解析、教育题解、医疗影像推理等场景。

Python

Apache License 2.0

在 GitHub 查看

2.1k

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分57.76

默认分支main

LLaVA-CoT

Star 增长

加入交流群