LLaVA-UHD-v4

THUMAI-Lab

暂无描述

AI 简介

LLaVA-UHD-v4 是一个面向高分辨率图像理解的高效多模态大语言模型（MLLM），专注于降低视觉编码计算开销。其核心创新在于提出基于图像分块（slice-based）的视觉编码框架，并在ViT浅层即引入早期token压缩（intra-ViT early compression），在保持16×压缩比的前提下，视觉编码FLOPs降低55.8%，同时维持甚至超越基线模型在文档理解、OCR、数学推理和通用视觉问答等任务上的性能。适用于需处理高分辨率图像且对推理效率敏感的多模态AI应用，如精细图文分析、长文档解析与实时视觉理解系统。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分35.63

默认分支main

LLaVA-UHD-v4

Star 增长

加入交流群