
vlm-probe
marived
Probing fine-grained perception in open-source vision-language models — companion code for a writeup.
AI 简介
VLM-Probe是一个用于评估开源视觉-语言模型在细粒度感知任务上表现的工具,旨在分析这些模型在特定任务中的失败原因,并判断问题出在视觉编码器还是语言头部。项目使用Python编写,通过`transformers`库加载模型,并以YAML格式定义任务。核心功能包括一个评估框架、探针模板以及每项任务的评分脚本。适用于需要深入理解现有视觉-语言模型局限性的研究场景,尤其是在物体计数、空间关系判断、颜色识别、文本读取及部分遮挡物检测等具体任务上的性能测试。该项目遵循MIT许可协议,确保了其在学术和工业界的广泛适用性。
Python
MIT License217
Stars
0
Forks
5
Watchers
0
Issues
Star 增长
今日0
近 7 天+54
近 30 天+174
综合评分70
默认分支main