GenLIP

YanFangCS

Official repo for "Let ViT Speak: Generative Language-Image Pre-training"

AI 简介

GenLIP 是一个旨在通过单一Transformer和自回归语言建模目标预训练强大多模态大语言模型（MLLM）视觉编码器的项目。该项目的核心功能是利用简单的架构实现高效扩展，并在多种视觉任务中表现出色，尤其在文档和OCR任务上效果显著。技术特点包括无需对比损失、双塔架构或额外文本解码器，仅依靠一个Transformer完成预训练。适合需要高效且强大的视觉编码器的场景，如文档处理、图像识别等。

Python

Apache License 2.0

在 GitHub 查看

120

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+3

近 30 天+32

综合评分46.8

默认分支main