llama.cpp-deepseek-v4-flash

antirez

Experimental implementation of DeepSeek v4 flaash in llama.cpp

AI 简介

这是一个为 DeepSeek v4 Flash 模型提供实验性支持的 llama.cpp 分支项目，实现了针对 Mac 端（128GB RAM）优化的 2-bit 量化方案，通过专家路由（MoE）压缩与 GGUF 格式适配，在 CPU 和 Metal 后端均可高效运行。核心特点是轻量级 C++ 实现、低内存占用、支持高精度量化（如 IQ2XXS/W2Q2K）及原生 Metal 加速。适用于本地部署受限资源环境下的大模型对话推理，尤其适合 macOS 用户在无 GPU 条件下运行前沿 MoE 架构模型。

C++

MIT License

在 GitHub 查看

321

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+10

综合评分46.36

默认分支main

llama.cpp-deepseek-v4-flash

Star 增长

加入交流群