airllm

lyogavin

AirLLM 70B inference with single 4GB GPU

AI 简介

AirLLM 是一个轻量级大语言模型（LLM）推理优化框架，旨在显著降低LLM运行时的显存占用，支持在单卡4GB GPU上运行70B参数模型、8GB显存上运行405B Llama3.1模型，且无需量化、剪枝或蒸馏等精度损失操作。其核心技术包括内存分页加载、计算-加载流水线重叠、自动模型类型识别及对多架构（Llama、Qwen、ChatGLM、Mixtral等）的原生支持，并兼容4/8-bit量化与CPU推理。适用于资源受限环境下的本地LLM部署、教育演示、边缘端AI实验及快速原型验证等场景。

Jupyter Notebook

Apache License 2.0

chinese-llm chinese-nlp finetune generative-ai instruct-gpt instruction-set llama llm lora open-models open-source open-source-models qlora

在 GitHub 查看

22.2k

Stars

2.6k

Forks

227

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+488

综合评分80

默认分支main

airllm

Star 增长

加入交流群