vllm-project

vllm-ascend

vllm-project

Community maintained hardware plugin for vLLM on Ascend

AI 简介

vLLM Ascend Plugin 是一个社区维护的硬件插件,旨在为Ascend平台上的vLLM提供支持。它通过Python语言实现,专注于大语言模型(LLM)的高效推理与服务部署,具备低延迟、高吞吐量的特点,并且优化了Transformer架构下的模型运行效率。该插件非常适合需要在Ascend加速器上进行大规模语言模型推理和部署的应用场景,如自然语言处理服务、在线聊天机器人等,能够显著提升计算资源利用率及模型响应速度。

C++
2.2k
Stars
1.4k
Forks
30
Watchers
1.4k
Issues

Star 增长

今日0
近 7 天+39
近 30 天+162
综合评分87.91
默认分支main