
production-stack
vllm-project
vLLM’s reference system for K8S-native cluster-wide deployment with community-driven performance optimization
AI 简介
vLLM Production Stack 是一个面向Kubernetes原生集群部署的参考系统,旨在通过社区驱动的性能优化支持大规模语言模型(LLM)的应用。该项目利用Python开发,提供了一个从单个vLLM实例无缝扩展到分布式部署的解决方案,并支持通过Web仪表板监控关键指标。它还引入了请求路由和键值缓存卸载技术来提升整体性能。适用于需要在云平台上高效管理和部署大规模语言模型的企业或开发者,特别是在AWS、GCP等主流云计算环境中寻求简化部署流程和提高资源利用率的场景。
Python
Apache License 2.02.4k
Stars
419
Forks
27
Watchers
103
Issues
Star 增长
今日+9
近 7 天+20
近 30 天+58
综合评分93.67
默认分支main