
colpali
illuin-tech
The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.
AI 简介
ColPali是一个利用视觉语言模型进行文档检索的项目。其核心功能是通过将PaliGemma-3B的ViT输出块线性投影,生成文档的多向量表示,并训练模型以最大化这些文档嵌入与查询嵌入之间的相似度,从而实现高效的文档检索。该项目基于ColBERT架构,能够处理文档中的文本和视觉内容(如布局、图表等),无需复杂的布局识别和OCR流程。适用于需要从大量视觉文档中快速准确检索信息的场景,例如法律文件、科研论文或历史档案的搜索。
Python
MIT License2.7k
Stars
256
Forks
21
Watchers
3
Issues
Star 增长
今日+7
近 7 天+13
近 30 天+42
综合评分83.93
默认分支main