
llm-d
llm-d
Achieve state of the art inference performance with modern accelerators on Kubernetes
AI 简介
llm-d 是一个专为 Kubernetes 上的生产部署优化的高性能分布式推理服务栈。它通过智能路由、先进的KV缓存管理、大规模模型服务以及卓越的操作性等功能,帮助用户在各种硬件加速器和基础设施提供商上实现关键开源大语言模型的最佳推理性能。其核心功能包括基于预测延迟的调度以减少延迟并提高吞吐量、分层卸载到CPU或磁盘来增加多轮请求的有效工作集大小、使用预填充/解码分离和宽专家并行技术优化超大规模模型处理,以及基于实时推理信号的智能流控和SLO感知自动扩展等。该项目适用于需要高效率、高可靠性的大规模在线和离线推理场景。
Shell
Apache License 2.03.3k
Stars
521
Forks
58
Watchers
192
Issues
Star 增长
今日0
近 7 天+30
近 30 天+141
综合评分85.15
默认分支main