THUMAI-Lab

LLaVA-UHD-v4

THUMAI-Lab

暂无描述

AI 简介

LLaVA-UHD v4 是一个专为高效高分辨率视觉编码设计的多模态大语言模型。该项目通过引入基于切片的编码框架和ViT内部早期压缩机制,将token减少操作移至浅层ViT中,从而显著降低了视觉编码的计算成本,同时保持了精细感知能力。根据项目介绍,在文档理解、OCR、数学推理及一般VQA等八个标准基准测试中,LLaVA-UHD v4不仅在相同的16倍最终压缩比下与后ViT压缩基线性能相当甚至超越,还减少了55.8%的视觉编码FLOPs。因此,该项目非常适合需要处理大规模高分辨率图像数据的应用场景,如图像密集型AI服务或研究项目。

Python
33
Stars
2
Forks
31
Watchers
2
Issues

Star 增长

今日0
近 7 天0
近 30 天0
综合评分35.43
默认分支main