
GenLIP
YanFangCS
Official repo for "Let ViT Speak: Generative Language-Image Pre-training"
AI 简介
GenLIP 是一个旨在通过单一Transformer和自回归语言建模目标预训练强大多模态大语言模型(MLLM)视觉编码器的项目。该项目的核心功能是利用简单的架构实现高效扩展,并在多种视觉任务中表现出色,尤其在文档和OCR任务上效果显著。技术特点包括无需对比损失、双塔架构或额外文本解码器,仅依靠一个Transformer完成预训练。适合需要高效且强大的视觉编码器的场景,如文档处理、图像识别等。
Python
Apache License 2.0120
Stars
4
Forks
51
Watchers
7
Issues
Star 增长
今日0
近 7 天+3
近 30 天+32
综合评分46.8
默认分支main