vlm-probe

marived

Probing fine-grained perception in open-source vision-language models — companion code for a writeup.

AI 简介

VLM-Probe 是一个用于细粒度感知能力诊断的开源评估工具，专门检测开源视觉语言模型（VLM）在具体视觉理解任务上的表现缺陷。它提供标准化的多任务评估框架，覆盖物体计数、空间关系判断、颜色属性识别、图像内文字识别及部分遮挡状态判断五类多项选择任务，支持通过 Hugging Face Transformers 加载主流模型（如 LLaVA、Qwen-VL），所有任务以 YAML 配置、结果精确匹配评分。项目适用于模型开发者和研究人员对 VLM 的视觉编码器或语言头进行归因分析，辅助定位感知瓶颈，常用于模型鲁棒性评估与架构改进验证。

Python

MIT License

在 GitHub 查看

218

Stars

5.8k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分50

默认分支main

vlm-probe

Star 增长

加入交流群