bstnxbt

dflash-mlx

bstnxbt

Lossless DFlash speculative decoding for MLX on Apple Silicon

AI 简介

dflash-mlx 是一个针对 Apple Silicon 平台的无损 DFlash 投机解码项目。它利用一个小规模的草案模型(约 10 亿参数)并行生成 16 个 token,再由目标模型在单次前向传递中验证这些 token,确保每个输出的 token 都经过目标模型的验证。该项目基于 Python 3.10+ 构建,并使用了定制的 Metal 内核来优化回滚、长上下文验证和量化矩阵乘法等关键步骤,从而实现高效的解码过程。dflash-mlx 适用于需要高性能文本生成的应用场景,特别是在 Apple Silicon 设备上进行大规模语言模型推理时能够显著提升效率。

Python
Apache License 2.0
728
Stars
54
Forks
4
Watchers
10
Issues

Star 增长

今日0
近 7 天+8
近 30 天+58
综合评分59.02
默认分支main