
ddtree-mlx
humanrouter
Tree-based speculative decoding for Apple Silicon (MLX). ~10-15% faster than DFlash on code, ~1.5x over autoregressive. First MLX port with custom Metal kernels for hybrid model support.
AI 简介
DDTree-MLX 是一个针对 Apple Silicon 设备优化的树状推测解码项目,相比 DFlash 在代码生成上快约 10-15%,比自回归模型快约 1.5 倍。其核心功能是通过构建一个从每个位置的 logits 生成的草稿树,并在一次前向传递中验证整个树,从而同时探索多个可能的延续路径,提高每轮验证周期接受的令牌数量。该项目基于论文《使用块扩散草稿树加速推测解码》,是首个为 Apple Silicon 设备定制 Metal 内核支持混合模型的 MLX 端口。适用于需要高效文本生成尤其是代码和结构化内容生成的场景,在这些场景下 DDTree 能够显著提升生成速度而不损失输出质量。
Python
139
Stars
11
Forks
2
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天+3
综合评分40.54
默认分支main