turboquant

0xSero

TurboQuant: Near-optimal KV cache quantization for LLM inference (3-bit keys, 2-bit values) with Triton kernels + vLLM integration

AI 简介

TurboQuant 是一个面向大语言模型推理的 KV 缓存量化压缩库，支持 3-bit 键（key）与 2-bit 值（value）的近似最优量化，在保持精度的同时显著降低显存占用。项目基于 Triton 实现高效 CUDA 内核，并深度集成 vLLM 推理框架，兼容 dense 和 MoE 架构，已在 RTX 3090/5090 等 GPU 上验证效果。典型场景包括长上下文（如 100k+ tokens）推理、多实例部署及显存受限环境下的模型服务，可提升 KV 缓存容量达 2 倍，同时小幅提升预填充吞吐并降低激活内存开销。

Python

GNU General Public License v3.0

在 GitHub 查看

1.6k

Stars

184

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+29

综合评分57.7

默认分支main

turboquant

Star 增长

加入交流群