vllm-project

llm-compressor

vllm-project

Transformers-compatible library for applying various compression algorithms to LLMs for optimized deployment with vLLM

AI 简介

LLM Compressor 是一个用于优化大语言模型(LLMs)部署的库,特别针对vLLM环境。它提供了包括权重、激活、KV缓存和注意力量化在内的一系列压缩算法和技术转换,支持与Hugging Face模型无缝集成,并以`compressed-tensors`格式保存模型,确保与vLLM兼容。此外,该库还支持分布式数据并行(DDP)和磁盘卸载功能,适用于处理非常大的模型。非常适合需要高效部署大型语言模型到生产环境的应用场景,如在线服务、云计算平台等。

Python
Apache License 2.0
3.4k
Stars
544
Forks
30
Watchers
61
Issues

Star 增长

今日0
近 7 天+40
近 30 天+131
综合评分90.21
默认分支main