
dflash-mlx
Aryagm
Exact speculative decoding on Apple Silicon, powered by MLX.
AI 简介
dflash-mlx 是一个基于 MLX 技术在 Apple Silicon 平台上实现的精确推测解码项目。其核心功能包括通过训练小型块扩散模型来一次性提出多个令牌,并由目标模型进行验证,从而加速文本生成过程。该项目使用 Python 语言编写,支持 Qwen3-4B 和 Qwen3.5-4B 等模型,默认情况下会从 Hugging Face 缓存中下载相关权重文件。此外,还提供了一个与 OpenAI API 兼容的本地 HTTP 服务器,方便集成到需要高效文本生成的应用场景中,如聊天机器人开发、自动化内容创作等。dflash-mlx 适合对生成速度有较高要求且主要处理纯文本任务的情况。
Python
MIT License376
Stars
35
Forks
5
Watchers
3
Issues
Star 增长
今日0
近 7 天+1
近 30 天+5
综合评分45.67
默认分支main