danveloper

flash-moe

danveloper

Running a big model on a small laptop

AI 简介

Flash-MoE 是一个能够在普通笔记本电脑上运行大规模模型的项目。它使用纯C/Metal推理引擎,能够以每秒4.4个以上的token速度在配备48GB RAM的MacBook Pro上运行具有3970亿参数的Qwen3.5-397B-A17B混合专家模型,并支持工具调用等生产级功能。该项目通过自定义Metal计算管线直接从SSD流式传输整个209GB模型数据,采用4位或2位量化技术及FMA优化内核来提高效率与性能。适用于需要在资源受限环境下高效执行大型语言模型的应用场景,如个人开发、研究实验或小型企业部署等。

Objective-C
3.9k
Stars
494
Forks
40
Watchers
10
Issues

Star 增长

今日0
近 7 天+14
近 30 天+64
综合评分70.48
默认分支main