OScaR-KV-Quant

ZunhaiSu

🏆 OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond — redefining the accuracy-efficiency Pareto front for X-LLMs KV quantization.

AI 简介

OScaR-KV-Quant 是一个面向大语言模型（LLM）键值（KV）缓存的极简、高精度量化压缩框架，专为长上下文、多模态及全模态大模型（X-LLMs）设计。其核心采用无数据（data-free）、无需训练与校准（training & calibration-free）的 Omni-Scaled Canalized Rotation（OScaR）算法，通过建模并缓解 Token Norm Imbalance（TNI）问题，在极低比特（如 2–4 bit）下显著提升 KV 量化保真度。项目以 C++ 实现，支持即插即用集成，适用于推理加速、内存受限部署及边缘端大模型服务等场景。

C++

MIT License

在 GitHub 查看

138

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+1

综合评分43.63

默认分支main

OScaR-KV-Quant

Star 增长

加入交流群