PKU-YuanGroup

LLaVA-CoT

PKU-YuanGroup

[ICCV 2025] LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning

AI 简介

LLaVA-CoT是一个能够进行自发、系统性推理的视觉语言模型。该项目的核心功能在于通过多步骤推理来理解和解决复杂的多模态任务,使用Python开发,并基于110亿参数的大模型,在六个具有挑战性的多模态基准测试中表现优于Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等模型。LLaVA-CoT适合应用于需要高级视觉理解与文本交互能力的场景,如图像描述生成、复杂问题解答以及基于图像的内容分析等领域。项目遵循Apache License 2.0开源协议发布,支持社区贡献与扩展。

Python
Apache License 2.0
2.1k
Stars
82
Forks
62
Watchers
0
Issues

Star 增长

今日0
近 7 天+1
近 30 天+3
综合评分48.56
默认分支main