FutureMLS-Lab

OSCAR

FutureMLS-Lab

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

AI 简介

OSCAR 是一个用于2比特KV缓存量化的离线频谱协方差感知旋转技术。该项目通过在小校准集上捕获Q/K/V激活,估计注意力感知的K/V协方差结构,并推导出每层旋转和剪裁阈值,使得KV量化与实际使用的注意力方向对齐。核心功能包括INT2存储大部分KV缓存以及少量BF16存储,相比BF16压缩了约7倍的KV缓存内存占用,同时保持了单数百分比精度下降。适用于需要高效利用内存资源进行大规模模型推理的场景,如长序列任务或多模态处理。项目基于Python开发,直接集成到开源SGLang框架中,用户可以轻松设置环境并运行相关脚本。

Python
488
Stars
72
Forks
37
Watchers
2
Issues

Star 增长

今日+13
近 7 天+146
近 30 天+446
综合评分92.57
默认分支main