0xSero

turboquant

0xSero

TurboQuant: Near-optimal KV cache quantization for LLM inference (3-bit keys, 2-bit values) with Triton kernels + vLLM integration

AI 简介

TurboQuant 是一个用于大语言模型推理的KV缓存量化工具,通过3比特键和2比特值实现近似最优的压缩,并集成了Triton内核与vLLM。其核心功能包括高效的KV缓存压缩,显著减少内存占用并提升处理能力。例如,在RTX 5090上运行Qwen3.5-27B-AWQ模型时,TurboQuant不仅将最大token容量翻倍,还降低了峰值激活内存消耗。此外,它在多GPU环境下同样表现出色,如8块RTX 3090组成的集群中,针对特定架构的模型能够节省约30.9%的KV缓存空间。此项目特别适用于需要优化资源使用效率的大规模语言模型部署场景,尤其是在计算资源有限但对性能要求较高的环境中。

Python
GNU General Public License v3.0
1.5k
Stars
180
Forks
17
Watchers
8
Issues

Star 增长

今日+47
近 7 天+82
近 30 天+204
综合评分19.77
默认分支main