gpustack

gpustack

gpustack

A GPU cluster manager that configures and orchestrates inference engines like vLLM and SGLang for high-performance AI model deployment.

AI 简介

GPUStack是一个开源的GPU集群管理器,专为高效部署AI模型而设计。它能够配置和编排如vLLM、SGLang等推理引擎,以优化跨GPU集群的性能。该项目支持多环境下的GPU集群管理,包括本地服务器、Kubernetes集群及云服务提供商,并且允许用户根据需求添加自定义的推理引擎。此外,通过提供即插即用的引擎架构,使得新模型在发布的当天即可被部署。针对不同应用场景,GPUStack预设了低延迟或高吞吐量模式,并支持扩展的KV缓存系统来减少首次响应时间。同时,该工具还具备企业级运维能力,包括自动故障恢复、负载均衡、监控以及认证与访问控制等功能。适用于需要大规模高性能AI模型部署的企业级场景。

Python
Apache License 2.0
5.1k
Stars
546
Forks
39
Watchers
534
Issues

Star 增长

今日0
近 7 天+36
近 30 天+116
综合评分92.21
默认分支main