
ik_llama.cpp
ikawrakow
llama.cpp fork with additional SOTA quants and improved performance
AI 简介
ik_llama.cpp 是一个基于 llama.cpp 的改进版本,旨在提高 CPU 和混合 GPU/CPU 性能。该项目引入了最新的量化技术、Bitnet 支持以及通过 MLA、FlashMLA 和融合 MoE 操作优化的 DeepSeek 性能,并支持混合 GPU/CPU 推理的张量覆盖和行交错量化打包。适用于需要高效处理大型语言模型(特别是 MoE 模型)的场景,尤其是在 CPU 和 GPU 协同工作的环境中。项目主要支持现代 CPU(AVX2 或更高版本,ARM NEON 或更高版本)和 CUDA(Turing 或更新版本)作为计算后端。
C++
2.7k
Stars
349
Forks
34
Watchers
44
Issues
Star 增长
今日0
近 7 天+72
近 30 天+371
综合评分86.63
默认分支main