LMCache

LMCache: Supercharge Your LLM with the Fastest KV Cache Layer

AI 简介

LMCache 是一个专为大语言模型（LLM）推理优化设计的高性能 KV 缓存层，旨在显著降低首字延迟（TTFT）并提升吞吐量。它支持跨实例复用任意文本片段（不限于前缀）的 KV 缓存，可将缓存持久化至 GPU 显存、CPU 内存、本地磁盘甚至 S3 对象存储，并集成零拷贝、NIXL、GDS 等加速技术。项目深度兼容 vLLM 等主流推理引擎，在多轮对话、RAG 和长上下文场景中实测节省 3–10 倍 GPU 计算开销与响应延迟。适用于高并发、低延迟要求的 LLM 服务部署场景。