TheTom

vllm-swift

TheTom

vLLM Metal plugin powered by mlx-swift — high-performance LLM inference on Apple Silicon

AI 简介

vLLM-Swift 是一个专为苹果芯片设计的高性能大语言模型推理引擎,通过 Swift 和 Metal 技术提供原生支持。其核心功能包括无 Python 的推理热路径、与 OpenAI 兼容的 API 以及最高可达 2.6 倍的短上下文解码速度提升。该项目利用了苹果设备上的硬件加速能力,特别适合在搭载 M 系列芯片的 Mac 上运行复杂的语言模型任务,如 Qwen3-4B-4bit,以实现更快的响应时间和更高的吞吐量。此外,它还支持 TurboQuant+ KV 缓存压缩技术,在保持性能的同时扩展了上下文长度。

Python
Apache License 2.0
267
Stars
17
Forks
4
Watchers
7
Issues

Star 增长

今日+1
近 7 天+5
近 30 天+12
综合评分49.47
默认分支main