illuin-tech

colpali

illuin-tech

The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.

AI 简介

ColPali是一个利用视觉语言模型进行文档检索的项目。其核心功能是通过将PaliGemma-3B的ViT输出块线性投影,生成文档的多向量表示,并训练模型以最大化这些文档嵌入与查询嵌入之间的相似度,从而实现高效的文档检索。该项目基于ColBERT架构,能够处理文档中的文本和视觉内容(如布局、图表等),无需复杂的布局识别和OCR流程。适用于需要从大量视觉文档中快速准确检索信息的场景,例如法律文件、科研论文或历史档案的搜索。

Python
MIT License
2.7k
Stars
256
Forks
21
Watchers
3
Issues

Star 增长

今日+7
近 7 天+13
近 30 天+42
综合评分83.93
默认分支main