LightVLM

cortsdine

Efficient inference toolkit for vision-language models: KV-cache compression, INT4/INT8 quantization, and visual token pruning.

AI 简介

LightVLM 是一个面向视觉语言模型（VLM）的轻量级推理优化工具包，旨在降低资源消耗并提升单卡部署效率。它集成了 KV 缓存压缩（支持 H2O/StreamingLLM 策略）、INT4/INT8 权重量化（基于 SmoothQuant 和 GPTQ 改进）以及视觉令牌剪枝（FastV 风格）三大核心技术，通过统一 Python API 实现多技术协同启用。适用于在单张 24GB 消费级 GPU 上运行 7B 级别 VLM 的典型场景，如图像描述、视觉问答和 OCR 等低延迟、中等精度要求的边缘或研究型任务。

Python

Other

在 GitHub 查看

222

Stars

6.5k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分50

默认分支main

LightVLM

Star 增长

加入交流群