dflash-mlx

Aryagm

Exact speculative decoding on Apple Silicon, powered by MLX.

AI 简介

dflash-mlx 是一个基于 MLX 技术在 Apple Silicon 平台上实现的精确推测解码项目。其核心功能包括通过训练小型块扩散模型来一次性提出多个令牌，并由目标模型进行验证，从而加速文本生成过程。该项目使用 Python 语言编写，支持 Qwen3-4B 和 Qwen3.5-4B 等模型，默认情况下会从 Hugging Face 缓存中下载相关权重文件。此外，还提供了一个与 OpenAI API 兼容的本地 HTTP 服务器，方便集成到需要高效文本生成的应用场景中，如聊天机器人开发、自动化内容创作等。dflash-mlx 适合对生成速度有较高要求且主要处理纯文本任务的情况。

Python

MIT License

在 GitHub 查看

376

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+1

近 30 天+5

综合评分45.67

默认分支main