llm-d

Achieve state of the art inference performance with modern accelerators on Kubernetes

AI 简介

llm-d 是一个面向 Kubernetes 的高性能分布式大语言模型（LLM）推理服务框架，专注于在各类加速器（GPU/TPU等）上实现生产级低延迟、高吞吐的推理服务。其核心能力包括智能路由（前缀缓存与负载感知调度）、分层 KV 缓存管理（支持 CPU/磁盘卸载）、大规模模型服务优化（prefill/decode 解耦与专家并行）、SLO 驱动的自动扩缩容及批量异步推理。项目由 CNCF 沙箱托管，提供经实测验证的 Helm 图表与部署指南，适用于需要稳定、可扩展、硬件适配性强的 AI 推理服务场景。