ik_llama.cpp

ikawrakow

llama.cpp fork with additional SOTA quants and improved performance

AI 简介

ik_llama.cpp 是一个高性能的 LLaMA 模型 CPU/GPU 混合推理引擎，基于 llama.cpp 深度优化。核心功能包括新增多种前沿量化方法（如 K2_K、Q3_K–Q6_K）、原生 BitNet 支持、DeepSeek 专用 MLA/FlashMLA 加速、融合 MoE 计算及行交错量化打包等；显著提升 AVX2+/ARM_NEON+ CPU 与 Turing+ CUDA GPU 的协同推理效率。适用于资源受限环境下的本地大模型部署，尤其适合需兼顾精度与低延迟的 MoE 架构模型（如 DeepSeek-MoE）在 CPU 主导或混合硬件上的高效运行。

C++

在 GitHub 查看

2.9k

Stars

374

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+50

综合评分61.72

默认分支main

ik_llama.cpp

Star 增长

加入交流群