
MTPLX
youssofal
2.24x decode TPS increase On Qwen 3.6 27B @ temp 0.6 | Native MTP Speculative Decoding On Apple Silicon With No External Drafter.
AI 简介
MTPLX 是一个专为苹果 Silicon 设备设计的本地 MTP 推测解码引擎,能够显著提升 Qwen 3.6 27B 模型在温度为0.6时的解码吞吐量。其核心功能包括利用模型内置的MTP头作为推测草稿器,并采用精确的概率比接受和残差校正方法,从而在保持目标模型分布的同时提高解码速度。技术特点上,MTPLX基于MLX构建,无需外部草稿器,支持OpenAI/Anthropic兼容的服务接口。该工具非常适合需要在Mac设备上高效运行大语言模型的应用场景,例如本地AI推理、开发测试等。
Python
Apache License 2.0703
Stars
37
Forks
13
Watchers
17
Issues
Star 增长
今日+22
近 7 天+63
近 30 天+375
综合评分98.74
默认分支main