
vllm
vllm-project
A high-throughput and memory-efficient inference and serving engine for LLMs
AI 简介
vLLM 是一个高性能且内存高效的大型语言模型推理和服务引擎。它通过先进的PagedAttention技术有效管理注意力键值内存,支持连续请求批处理、分块预填充和前缀缓存等功能,从而实现一流的吞吐量。此外,vLLM还具备快速灵活的模型执行能力,支持多种量化方法以优化性能,并集成了FlashAttention等优化后的注意力核。该项目适用于需要高效处理大量并发请求的语言模型服务场景,如在线聊天机器人、自动文本生成等应用。其易于与Hugging Face模型集成的特点,加上对OpenAI API兼容的支持,使得vLLM成为开发人员部署大规模语言模型的理想选择。
Python
Apache License 2.082.2k
Stars
17.8k
Forks
565
Watchers
2k
Issues
Star 增长
今日+85
近 7 天+641
近 30 天+2833
综合评分120
默认分支main