vllm

vllm-project

A high-throughput and memory-efficient inference and serving engine for LLMs

AI 简介

vLLM 是一个面向大语言模型（LLM）的高性能推理与服务引擎，专为高吞吐、低内存占用的生产环境部署设计。其核心采用原创的 PagedAttention 内存管理机制，支持连续批处理、前缀缓存、多种量化格式（FP8/INT4/GGUF等）、FlashAttention 等优化内核，以及 speculative decoding 和多 LoRA 高效加载。兼容 Hugging Face 模型，提供 OpenAI 兼容 API，支持 NVIDIA/AMD GPU 及 TPU 等异构硬件。适用于需要低成本、高并发 LLM 服务的云平台、AI 应用后端和私有化部署场景。

Python

Apache License 2.0

amd blackwell cuda deepseek deepseek-v3 gpt gpt-oss inference kimi llama llm llm-serving model-serving moe openai pytorch qwen qwen3 tpu transformer

在 GitHub 查看官方网站

85.9k

Stars

19.2k

Forks

578

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2260

综合评分80

默认分支main

vllm

Star 增长

加入交流群