
LMCache
LMCache
LMCache: Supercharge Your LLM with the Fastest KV Cache Layer
AI 简介
LMCache 是一个用于加速大规模语言模型(LLM)推理过程的KV缓存层扩展。它通过在数据中心范围内存储可重用文本的KV缓存(支持GPU、CPU、磁盘乃至S3),并利用多种加速技术如零CPU拷贝、NIXL和GDS等,显著减少了首次响应时间(TTFT)并提高了吞吐量,特别是在处理长上下文场景时表现尤为出色。LMCache能够跨不同服务实例重用任意重复文本的KV缓存,从而节省宝贵的GPU计算资源并降低用户等待延迟。该项目非常适合需要高效处理多轮对话问答、检索增强生成(RAG)等对实时性和成本敏感的应用场景。
Python
Apache License 2.08.5k
Stars
1.3k
Forks
44
Watchers
119
Issues
Star 增长
今日0
近 7 天+42
近 30 天+181
综合评分95.31
默认分支dev