ZunhaiSu

OScaR-KV-Quant

ZunhaiSu

🏆 OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond — redefining the accuracy-efficiency Pareto front for X-LLMs KV quantization.

AI 简介

OScaR-KV-Quant 是一个针对大语言模型(LLMs)及其扩展中键值缓存(KV Cache)进行极致量化压缩的框架。它通过引入一种名为OScaR(Omni-Scaled Canalized Rotation)的方法,在不依赖复杂流程的情况下,解决了现有逐通道量化方案中存在的Token Norm Imbalance (TNI) 问题,从而实现了高效且准确的KV缓存压缩。该工具采用C++开发,具有无数据、无需训练与校准以及即插即用的特点,适用于文本、多模态乃至全模态的大规模语言模型场景下优化性能与资源消耗之间的平衡。

C++
MIT License
134
Stars
12
Forks
5
Watchers
1
Issues

Star 增长

今日0
近 7 天0
近 30 天+27
综合评分46.04
默认分支main