llama.cpp

ggml-org

LLM inference in C/C++

AI 简介

llama.cpp 是一个用 C/C++ 实现的轻量级大语言模型（LLM）推理框架，专注于在 CPU 和本地设备上高效运行量化模型。其核心功能包括对 GGUF 格式模型的原生支持、多种量化精度（如 Q4_K_M、Q8_0）、流式文本生成、多线程与 AVX/ARM NEON 加速，以及 REST API 服务（llama-server）和命令行工具（llama-cli）。项目不依赖 GPU 或 Python，适合边缘设备、桌面端私有部署、嵌入式场景及对隐私和离线推理有要求的应用。

C++

MIT License

ggml

在 GitHub 查看

119.9k

Stars

20.4k

Forks

773

Watchers

674

Issues

Star 增长

今日0

近 7 天0

近 30 天+2079

综合评分80

默认分支master

llama.cpp

Star 增长

加入交流群