
LightVLM
cortsdine
Efficient inference toolkit for vision-language models: KV-cache compression, INT4/INT8 quantization, and visual token pruning.
AI 简介
LightVLM 是一个高效的视觉-语言模型推理工具包,支持KV缓存压缩、INT4/INT8量化和视觉令牌剪枝。其核心功能包括H2O和StreamingLLM风格的KV缓存压缩策略、基于SmoothQuant和GPTQ的低比特量化技术以及FastV风格的注意力驱动令牌剪枝方法。这些优化手段通过统一的Python API接口提供,使得70亿参数级别的视觉-语言模型能够在单个消费级GPU上运行而不显著牺牲性能。该工具包适用于图像字幕生成、OCR识别、视觉问答等场景,尤其适合那些只能访问到有限计算资源(如单张24GB显存的消费级显卡)的研究人员或开发者使用。
Python
Other222
Stars
6.5k
Forks
6
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天+180
综合评分60
默认分支main