
cider
Mininglamp-AI
W8A8/W4A8 inference + optimized SDPA on Apple Silicon — unlocking unused INT8 TensorOps in M5 for 1.2–1.9× faster LLM prefill, plus FlashInfer-inspired GQA decode attention for up to 1.6× SDPA speedup, built as MLX custom primitives.
AI 简介
Cider 是一个基于 MLX 为 macOS 开发的项目,旨在通过解锁 M5 芯片中未使用的 INT8 TensorOps 实现更快的 LLM 预填充。其核心功能包括在线激活量化操作符和自定义 int-matmul 内核,支持 W8A8 和 W4A8 模式的推理加速。Cider 利用条件编译技术,在 M5 及以上芯片上构建完整的 C++ 扩展和 Metal 内核,而在 M4 及以下芯片上则提供纯 Python 包。该项目特别适用于需要在 Apple Silicon 设备上高效运行大规模语言模型的应用场景,如自然语言处理任务。此外,Cider 还提供了服务端扩展及非侵入式兼容补丁,确保与 mlx_vlm 的良好集成。
Python
MIT License428
Stars
26
Forks
14
Watchers
0
Issues
Star 增长
今日+104
近 7 天+111
近 30 天+143
综合评分94.29
默认分支main