[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-71856":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":25,"hasPages":23,"topics":26,"createdAt":10,"pushedAt":10,"updatedAt":32,"readmeContent":33,"aiSummary":34,"trendingCount":16,"starSnapshotCount":16,"syncStatus":35,"lastSyncTime":36,"discoverSource":37},71856,"llm-action","liguodongiot\u002Fllm-action","liguodongiot","本项目旨在分享大模型相关技术原理以及实战经验（大模型工程化、大模型应用落地）","https:\u002F\u002Fwww.zhihu.com\u002Fcolumn\u002Fc_1456193767213043713",null,"HTML",24497,2810,202,17,0,54,102,244,162,45,"Apache License 2.0",false,"main",true,[27,28,29,30,31],"llm","llm-inference","llm-serving","llm-training","llmops","2026-06-12 02:02:55","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fpic\u002Fllm-action-v4.jpg\" >\n\u003C\u002Fp>\n\n\n\u003Cp> \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fstargazers\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fliguodongiot\u002Fllm-action?style=social\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fpic\u002Fwx.jpg\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-1AAD19.svg?style=plastic&logo=wechat&logoColor=white\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fliguodong-iot\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-0079FF.svg?style=plastic&logo=zhihu&logoColor=white\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fjuejin.cn\u002Fuser\u002F3642056016410728\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F掘金-吃果冻不吐果冻皮-000099.svg?style=plastic&logo=juejin\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fliguodong.blog.csdn.net\u002F\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCSDN-吃果冻不吐果冻皮-6B238E.svg\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLab4AI-大模型实验室-1E90FF.svg\"> \u003C\u002Fa>\n\u003C\u002Fp> \n\n\n## 目录\n\n- :snail: [LLM训练](#llm训练)\n  - 🐫 [LLM训练实战](#llm训练实战)\n  - 🐼 [LLM参数高效微调技术原理](#llm微调技术原理)\n  - 🐰 [LLM参数高效微调技术实战](#llm微调实战)\n  - 🐘 [LLM分布式训练并行技术](#llm分布式训练并行技术)\n  - 🌋 [分布式AI框架](#分布式ai框架)\n  - 📡 [分布式训练网络通信](#分布式训练网络通信)\n  - :herb: [LLM训练优化技术](#llm训练优化技术)\n  - :hourglass: [LLM对齐技术](#llm对齐技术)\n- 🐎 [LLM推理](#llm推理)\n  - 🚀 [LLM推理框架](#llm推理框架)\n  - ✈️ [LLM推理优化技术](#llm推理优化技术)\n- ♻️ [LLM压缩](#llm压缩)\n  - 📐 [LLM量化](#llm量化)\n  - 🔰 [LLM剪枝](#llm剪枝)\n  - 💹 [LLM知识蒸馏](#llm知识蒸馏)\n  - ♑️ [低秩分解](#低秩分解)\n- :herb: [LLM测评](#llm测评)\n  - 🔯 [LLM效果评测](#llm效果评测)\n  - 🔘 [LLM推理性能压测](#llm推理性能压测)\n- :palm_tree: [LLM数据工程](#llm数据工程)\n  - :dolphin: [LLM微调高效数据筛选技术](#llm微调高效数据筛选技术)\n- :cyclone: [提示工程](#提示工程)\n- ♍️ [LLM算法架构](#llm算法架构)\n- :jigsaw: [LLM应用开发](#llm应用开发)\n- 🀄️ [LLM国产化适配](#llm国产化适配)\n- 🔯 [AI编译器](#ai编译器)\n- 🔘 [AI基础设施](#ai基础设施)\n  - :maple_leaf: [AI加速卡](#ai加速卡)\n  - :octocat: [AI集群网络通信](#ai集群网络通信)\n- 💟 [LLMOps](#llmops)\n- 🍄 [LLM生态相关技术](#llm生态相关技术)\n- 💹 [LLM性能分析](#llm性能分析)\n- :dizzy: [LLM面试题](#llm面试题)\n- 🔨 [服务器基础环境安装及常用工具](#服务器基础环境安装及常用工具)\n- 💬 [LLM学习交流群](#llm学习交流群)\n- 👥 [微信公众号](#微信公众号)\n- ⭐️ [Star History](#star-history)\n- :link: [AI工程化课程推荐](#ai工程化课程推荐)\n\n\n## LLM训练\n\n### LLM训练实战\n\n下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。\n\n| LLM                         | 预训练\u002FSFT\u002FRLHF...            | 参数     | 教程                                                                                                                                                                                                                     | 代码                                                                                     |\n| --------------------------- | ----------------------------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------- |\n| Alpaca                      | full fine-turning             | 7B       | [从0到1复现斯坦福羊驼（Stanford Alpaca 7B）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618321077)                                                                                                                                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca)               |\n| Alpaca(LLaMA)               | LoRA                          | 7B~65B   | 1.[足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F619426866)\u003Cbr>2. [使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F632492604)    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca-lora)          |\n| BELLE(LLaMA\u002FBloom)          | full fine-turning             | 7B       | 1.[基于LLaMA-7B\u002FBloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618876472) \u003Cbr> 2. [BELLE(LLaMA-7B\u002FBloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621128368) | N\u002FA                                                                                      |\n| ChatGLM                     | LoRA                          | 6B       | [从0到1基于ChatGLM-6B使用LoRA进行参数高效微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621793987)                                                                                                                                      | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm-lora)         |\n| ChatGLM                     | full fine-turning\u002FP-Tuning v2 | 6B       | [使用DeepSpeed\u002FP-Tuning v2对ChatGLM-6B进行微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F622351059)                                                                                                                                     | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm)              |\n| Vicuna(LLaMA)               | full fine-turning             | 7B       | [大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F624012908)                                                                                                                            | N\u002FA                                                                                      |\n| OPT                         | RLHF                          | 0.1B~66B | 1.[一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626159553) \u003Cbr> 2. [一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626214655)                                 | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fdeepspeedchat)        |\n| MiniGPT-4(LLaMA)            | full fine-turning             | 7B       | [大杀器，多模态大模型MiniGPT-4入坑指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F627671257)                                                                                                                                             | N\u002FA                                                                                      |\n| Chinese-LLaMA-Alpaca(LLaMA) | LoRA（预训练+微调）           | 7B       | [中文LLaMA&amp;Alpaca大语言模型词表扩充+预训练+指令精调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F631360711)                                                                                                                            | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchinese-llama-alpaca) |\n| LLaMA                       | QLoRA                         | 7B\u002F65B   | [高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636644164)                                                                                                                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fqlora)                |\n| LLaMA                       | GaLore                         | 60M\u002F7B   | [突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686686751)   | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fgalore\u002Ftorchrun_main.py)  |\n\n**[⬆ 一键返回目录](#目录)**\n\n### LLM微调技术原理\n\n对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。\n\n因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。\n\n![peft方法](.\u002Fpic\u002Fllm\u002Ftrain\u002Fsft\u002Fpeft方法.jpg)\n\n\n- [大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635152813)\n- [大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635686756)\n- [大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635848732)\n- [大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636038478)\n- [大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636215898)\n- [大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636362246)\n- [大模型参数高效微调技术原理综述（七）-最佳实践、总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649755252)\n\n### LLM微调实战\n\n下面给大家分享**大模型参数高效微调技术实战**，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。\n\n| 教程          | 代码             | 框架             |\n| ------------- | --------------- | --------------- |\n| [大模型参数高效微调技术实战（一）-PEFT概述及环境搭建](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651744834)          | N\u002FA                                                                                                       | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（二）-Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646748939)               | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_prompt_tuning_clm.ipynb) | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（三）-P-Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646876256)                    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_clm.ipynb)      | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（四）-Prefix Tuning \u002F P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F648156780) | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_v2_clm.ipynb)   | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（五）-LoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649315197)                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_lora_clm.ipynb)          | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（六）-IA3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649707359)                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_ia3_clm.ipynb)           | HuggingFace PEFT |\n| [大模型微调实战（七）-基于LoRA微调多模态大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670048482)       |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Fblip2_lora_int8_fine_tune.py) | HuggingFace PEFT |\n| [大模型微调实战（八）-使用INT8\u002FFP4\u002FNF4微调大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670116171)    |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Ffinetune_bloom_bnb_peft.ipynb) | PEFT、bitsandbytes |\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n### [LLM分布式训练并行技术](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdistribution-parallelism)\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。\n\n而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据\u002F模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。\n\n下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。\n\n- [大模型分布式训练并行技术（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F598714869)\n- [大模型分布式训练并行技术（二）-数据并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650002268)\n- [大模型分布式训练并行技术（三）-流水线并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F653860567)\n- [大模型分布式训练并行技术（四）-张量并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F657921100)\n- [大模型分布式训练并行技术（五）-序列并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F659792351)\n- [大模型分布式训练并行技术（六）-多维混合并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F661279318)\n- [大模型分布式训练并行技术（七）-自动并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662517647)\n- [大模型分布式训练并行技术（八）-MOE并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662518387)\n- [大模型分布式训练并行技术（九）-总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667051845)\n\n**[⬆ 一键返回目录](#目录)**\n\n### 分布式AI框架\n\n- [PyTorch](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fpytorch\u002F)\n  - PyTorch 单机多卡训练\n  - PyTorch 多机多卡训练\n- [Megatron-LM](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron)\n  - Megatron-LM 单机多卡训练\n  - Megatron-LM 多机多卡训练\n  - [基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7259682893648724029)\n- [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fdeepspeed)\n  - DeepSpeed 单机多卡训练\n  - DeepSpeed 多机多卡训练\n- [Megatron-DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron-deepspeed)\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练\n\n\n### 分布式训练网络通信\n\n待更新...\n\n\n### LLM训练优化技术\n\n- FlashAttention V1、V2\n- 混合精度训练\n- 重计算\n- MQA \u002F GQA\n- 梯度累积\n\n\n### LLM对齐技术\n\n\n- PPO（近端策略优化）\n- DPO\n- ORPO\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## [LLM推理](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Finference)\n\n\n### 推理引擎\n\n- [大模型推理框架概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415776\u002Fanswer\u002F3243562246)\n- [大模型的好伙伴，浅析推理加速引擎FasterTransformer](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626008090)\n- [TensorRT-LLM保姆级教程（一）-快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F666849728)\n- [TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667572720)\n- [TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7398122968200593419)\n- [一文搞懂大模型生成文本的解码策略](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1921914053485376792)\n- [谈谈LLM生成文本的惩罚参数](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1965476299419132173)\n- [LLM 确定性推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1961192621759242664)\n\n\n迷你LLM推理引擎（非常适合源码学习）：\n\n- [Nano-vLLM源码注释](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fnano-vllm)：从头开始构建的轻量级 vLLM 实现。\n- [Mini-SGLang](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fmini-sglang)：一个轻量但高性能的大型语言模型推理框架，SGLang 的紧凑实现。\n\n\n生产级LLM推理引擎：\n\n- [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n- [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)\n\n其他推理引擎：\n\n- [LMDeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy)\n- [LightLLM](https:\u002F\u002Fgithub.com\u002FModelTC\u002Flightllm)：纯Python开发的大语言模型推理和服务框架\n- [MNN-LLM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN)：基于MNN引擎开发的大型语言模型运行时解决方案\n- [赤兔](https:\u002F\u002Fgithub.com\u002Fthu-pacman\u002Fchitu)\n- [mllm](https:\u002F\u002Fgithub.com\u002FUbiquitousLearning\u002Fmllm)：端侧多模态LLM推理引擎\n\n\n\n### 推理服务\n\n- [模型推理服务工具综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F721395381)\n- [模型推理服务化框架Triton保姆式教程（一）：快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F629336492)\n- [模型推理服务化框架Triton保姆式教程（二）：架构解析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634143650)\n- [模型推理服务化框架Triton保姆式教程（三）：开发实践](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634444666)\n\n\n### LLM推理优化技术\n\n- [LLM推理优化技术-概述]()\n- [大模型推理优化技术-KV Cache](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653658936\u002Fanswer\u002F3569365986)\n- [大模型推理服务调度优化技术-Continuous batching](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719610083)\n- [大模型低显存推理优化-Offload技术](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7405158045628596224)\n- [大模型推理优化技术-KV Cache量化](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n- [大模型推理优化技术-张量并行]()\n- [大模型推理服务调度优化技术-Chunked Prefill]()\n- [大模型推理优化技术-KV Cache优化方法综述]()\n- 大模型吞吐优化技术-多LoRA推理服务\n- 大模型推理服务调度优化技术-公平性调度\n- 大模型访存优化技术-FlashAttention\n- 大模型显存优化技术-PagedAttention\n- 大模型解码优化-Speculative Decoding及其变体\n- 大模型推理优化-结构化文本生成\n- Flash Decoding\n- FlashDecoding++\n\n\n## LLM压缩\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。\n模型压缩主要分为如下几类：\n\n-   模型剪枝（Pruning）\n-   知识蒸馏（Knowledge Distillation）\n-   模型量化（Quantization）\n-   低秩分解（Low-Rank Factorization）\n\n### [LLM量化](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fmodel-compression\u002Fquantization)\n\n本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。\n\n- [大模型量化概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F627484732\u002Fanswer\u002F3261671478)\n- 量化感知训练：\n    - [大模型量化感知训练技术原理：LLM-QAT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F647589650)\n    - [大模型量化感知微调技术原理：QLoRA]()\n    - PEQA\n- 训练后量化：\n    - [大模型量化技术原理：GPTQ、LLM.int8()](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F680212402)\n    - [大模型量化技术原理：SmoothQuant](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F576376372\u002Fanswer\u002F3388402085)\n    - [大模型量化技术原理：AWQ、AutoAWQ](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F681578090)\n    - [大模型量化技术原理：SpQR](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F682871823)\n    - [大模型量化技术原理：ZeroQuant系列](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F683813769)\n    - [大模型量化技术原理：FP8](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F658712811\u002Fanswer\u002F3596678896)\n    - [大模型量化技术原理：FP6](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7412893752090853386)\n    - [大模型量化技术原理：KIVI、IntactKV、KVQuant](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n    - [大模型量化技术原理：Atom、QuaRot](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7424334647570513972)\n    - [大模型量化技术原理：QoQ量化及QServe推理服务系统](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F8047106486)\n    - 大模型量化技术原理：QuIP、QuIP#、OmniQuant\n    - [大模型量化技术原理：FP4]()\n- [大模型量化技术原理：总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F11886909512)\n\n\n\n### LLM稀疏化\n\n- [万字长文谈深度神经网络剪枝综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692858636?)\n\n\n目前，大多数针对大模型模型的压缩技术都专注于模型量化领域，即降低单个权重的数值表示的精度。另一种模型压缩方法模型剪枝的研究相对较少，即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件，如权重矩阵的整行\u002F列（结构化剪枝）。\n\n本系列将针对一些常见大模型稀疏化方案（LLM-Pruner、SliceGPT、SparseGPT、Wanda等）进行讲述。\n\n- [大模型稀疏化技术原理：概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652126515\u002Fanswer\u002F3457652467)\n- [大模型稀疏化技术原理：Double Sparsity](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877769827783344)\n- 大模型稀疏化技术原理：LLM-Pruner、SliceGPT\n- 大模型稀疏化技术原理：SparseGPT、Wanda\n- 大模型稀疏化技术原理：总结\n\n\n**结构化剪枝**：\n\n- LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)\n- LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)\n- SliceGPT: Compress Large Language Models by Deleting Rows and Columns\n- LoSparse\n\n\n**非结构化剪枝**：\n\n- SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)\n- LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)\n- Wanda(A Simple and Effective Pruning Approach for Large Language Models)\n- Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)\n\n\n\n### LLM知识蒸馏\n\n- [大模型知识蒸馏概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415893\u002Fanswer\u002F3243565375)\n\n**Standard KD**:\n\n使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。\n\n- MINILLM\n- GKD\n\n**EA-based KD**:\n\n不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。\n\nIn-Context Learning：\n\n- In-Context Learning distillation\n\nChain-of-Thought：\n\n- MT-COT\n- Fine-tune-CoT\n- DISCO\n- SCOTT\n- SOCRATIC CoT\n\nInstruction Following：\n\n- Lion\n\n### 低秩分解\n\n低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。\n\n在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。\n\n- ZeroQuant-FP（低秩分解+量化）\n- LoRAPrune（低秩分解+剪枝）\n\n\n\n## LLM测评\n\n\n\n### LLM效果评测\n\n\n- [C-Eval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fceval)：全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。\n- [CMMLU](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FCMMLU)：一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。\n- [LVEval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FLVEval)：一个具备5个长度等级（16k、32k、64k、128k和256k）、最大文本测试长度达到256k的长文本评测基准。LV-Eval的平均文本长度达到102,380字，最小\u002F最大文本长度为11,896\u002F387,406字。LV-Eval主要有两类评测任务——单跳QA和多跳QA，共包含11个涵盖中英文的评测数据子集。LV-Eval设计时引入3个关键技术：干扰事实插入（Confusiong Facts Insertion，CFI）提高挑战性，关键词和短语替换（Keyword and Phrase Replacement，KPR）减少信息泄漏，以及基于关键词召回的评测指标（Answer Keywords，AK，指代结合答案关键词和字词黑名单的评价指标）提高评测数值客观性。\n- [IFEval: Instruction Following Eval](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fgoogle-research\u002Ftree\u002Fmaster\u002Finstruction_following_eval)\u002F[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.07911)：专注评估大模型遵循指令的能力,包含关键词检测、标点控制、输出格式要求等25种任务。\n- [SuperCLUE](https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FSuperCLUE)：一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。\n- [AGIEval](https:\u002F\u002Fgithub.com\u002Fruixiangcui\u002FAGIEval\u002F)：用于评估基础模型在与人类认知和解决问题相关的任务中的能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试，例如：普通大学入学考试（例如：中国高考（Gaokao）和美国 SAT）、法学院入学考试、数学竞赛、律师资格考试、国家公务员考试。\n- [OpenCompass](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass\u002Fblob\u002Fmain\u002FREADME_zh-CN.md)：司南 2.0 大模型评测体系。\n- [LongBench](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FLongBench)：一个双语（中英文）多任务基准数据集，旨在评估大语言模型的长上下文理解能力。它包含21个任务，涵盖单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等。数据集平均任务长度范围为5k到15k，共包含4750个测试数据。LongBench 采用全自动评估方法，旨在以最低的成本衡量和评估模型理解长上下文的能力。\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区官方推出的模型评测与性能基准测试框架，专为多样化的模型评估需求而设计。它支持广泛的模型类型，包括但不限于大语言模型、多模态模型、Embedding 模型、Reranker 模型和 CLIP 模型。EvalScope还适用于多种评测场景，如端到端RAG评测、竞技场模式和模型推理性能压测等，其内置多个常用测试基准和评测指标，如MMLU、CMMLU、C-Eval、GSM8K等。\n\n\n\n### LLM推理性能压测\n\n\n- [你真的搞懂了LLM性能压测的各项指标吗？](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1989359577871954448)\n- [AIPerf](https:\u002F\u002Fgithub.com\u002Fai-dynamo\u002Faiperf)：英伟达开源的性能测试工具\n- [GuideLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fguidellm)：vLLM开源的性能测试工具\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区开源的性能测试工具\n- [Inference Perf](https:\u002F\u002Fgithub.com\u002Fkubernetes-sigs\u002Finference-perf)\n- [genai-bench](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fgenai-bench)：SGLang开源的性能测试工具\n- [GenAI-Perf](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fperf_analyzer\u002Ftree\u002Fmain\u002Fgenai-perf)：英伟达开源的一个命令行工具（**已逐渐被淘汰，建议使用AIPerf**），用于测量通过推理服务提供生成式AI模型的吞吐量和延迟。GenAI-Perf 收集一组不同的指标来捕获推理服务的性能。\n\n| 指标 | 描述 | Aggregations |\n| - | - | - |\n| \u003Cspan id=\"time_to_first_token_metric\">Time to First Token\u003C\u002Fspan> | Time between when a request is sent and when its first response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"time_to_second_token_metric\">Time to Second Token\u003C\u002Fspan> | Time between when the first streaming response is received and when the second streaming response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"inter_token_latency_metric\">Inter Token Latency\u003C\u002Fspan> | Time between intermediate responses for a single request divided by the number of generated tokens of the latter response, one value per response per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Request Latency | Time between when a request is sent and when its final response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Output Sequence Length | Total number of output tokens of a request, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Input Sequence Length | Total number of input tokens of a request, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"output_token_throughput_metric\">Output Token Throughput\u003C\u002Fspan> | Total number of output tokens from benchmark divided by benchmark duration | None–one value per benchmark |\n| \u003Cspan id=\"request_throughput_metric\">Request Throughput\u003C\u002Fspan> | Number of final responses from benchmark divided by benchmark duration | None–one value per benchmark |\n\n\n\n\n## LLM数据工程\n\nLLM Data Engineering\n\n\n### 预训练语料处理技术\n\n![llm-pretrain-pipeline](.\u002Fpic\u002Fllm\u002Ftrain\u002Fpretrain\u002Fllm-pretrain-pipeline-v2.png)\n\n- 数据收集\n- 数据处理\n  - 去重\n  - 过滤\n  - 选择\n  - 组合\n\n### LLM微调高效数据筛选技术\n\n- [LLM微调高效数据筛选技术原理-DEITA]()\n- [LLM微调高效数据筛选技术原理-MoDS]()\n- [LLM微调高效数据筛选技术原理-IFD]()\n- [LLM微调高效数据筛选技术原理-CaR]()\n- [LESS：仅选择5%有影响力的数据优于全量数据集进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686007325)\n- [LESS 实践：用少量的数据进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686687923)\n\n\n\n## 提示工程\n\n- Zero-Shot Prompting\n- Few-Shot Prompting\n- Chain-of-Thought (CoT) Prompting\n- Automatic Chain-of-Thought (Auto-CoT) Prompting\n- Tree-of-Thoughts (ToT) Prompting\n\n\n\n## [LLM算法架构](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fai-algo)\n\n![llm-famliy](.\u002Fpic\u002Fllm\u002Fmodel\u002Fllm-famliy.jpg)\n\n\n- [大模型算法演进](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F600016134)\n\n![llm-famliy](.\u002Fpic\u002Fllm\u002Fmodel\u002Fllm-timeline-v2.png)\n\n- [百川智能开源大模型baichuan-7B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F606757218\u002Fanswer\u002F3075464500)\n- [百川智能开源大模型baichuan-13B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F611507751\u002Fanswer\u002F3114988669)\n- [LLaMA3 技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653374932\u002Fanswer\u002F3470909634)\n- [大模型算法架构：DeepSeek技术演进及剖析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877300439037789)\n- [大模型算法架构：QWen技术演进及剖析]()\n- ChatGLM \u002F ChatGLM2 \u002F ChatGLM3 大模型解析\n- Bloom 大模型解析\n- LLaMA \u002F LLaMA2 大模型解析\n- [DeepSeek 视觉语言大模型技术演进（从DeepSeek VL\u002FVL2到DeepSeek OCR）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1976731060562842519)\n- Qwen3-Next\n\n\n\n\n## LLM应用开发\n\n大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。\n\n- [云原生向量数据库Milvus（一）-简述、系统架构及应用场景](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F476025527)\n- [云原生向量数据库Milvus（二）-数据与索引的处理流程、索引类型及Schema](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F477231485)\n- [关于大模型驱动的AI智能体Agent的一些思考](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651921120)\n\n\n### Agent应用\n\n\n\nAI Assistant:\n\n- [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)：一款个人 AI 助手\n\n\nCode Agent:\n\n- [OpenCode](https:\u002F\u002Fgithub.com\u002Fanomalyco\u002Fopencode)：一个开源代码智能体，[项目文档](https:\u002F\u002Fopencode.ai\u002Fdocs\u002Fzh-cn\u002F)\n\n\n\n\n## [LLM国产化适配](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm_localization)\n\n随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。\n\n- [大模型国产化适配1-华为昇腾AI全栈软硬件平台总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F637918406)\n- [大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650730807)\n- [大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651324599)\n  - MindRecord数据格式说明、全量微调、LoRA微调\n- [大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F655902796)\n- [大模型国产化适配5-百度飞浆PaddleNLP大语言模型工具链总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F665807431)\n- [大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B\u002FBaiChuan2-7B模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F677799157)\n- [大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692377206)\n- [MindIE 1.0.RC1 发布，华为昇腾终于推出了针对LLM的完整部署方案，结束小米加步枪时代](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F654472145\u002Fanswer\u002F3482521709)\n- [大模型国产化适配8-基于昇腾MindIE推理工具部署Qwen-72B实战（推理引擎、推理服务化）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7365879319598727180)\n  - Qwen-72B、Baichuan2-7B、ChatGLM3-6B\n- [大模型国产化适配9-LLM推理框架MindIE-Service性能基准测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704649189)\n- [大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7375351908896866323)\n- [大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7380995631790964772)\n- [国产知名AI芯片厂商产品大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FPfWfdMKo8oXYN6xi7uycuhgFnKg)\n- [国内AI芯片厂商的计算平台大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FXnhcdXVDholUBpxYoMccS11Mnfc)\n- [【LLM国产化】量化技术在MindIE推理框架中的应用](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7416723051377377316)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n\n## [AI编译器](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fai-compiler)\n\nAI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。\n\n- [AI编译器技术剖析（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F669347560)\n- [AI编译器技术剖析（二）-传统编译器](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F671477784)\n- [AI编译器技术剖析（三）-树模型编译工具 Treelite 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676723324)\n- [AI编译器技术剖析（四）-编译器前端]()\n- [AI编译器技术剖析（五）-编译器后端]()\n- [AI编译器技术剖析（六）-主流编译框架]()\n- [AI编译器技术剖析（七）-深度学习模型编译优化]()\n- [lleaves：使用 LLVM 编译梯度提升决策树将预测速度提升10+倍](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672584013)\n\n框架：\n\n- MLIR\n- XLA\n- TVM\n\n\n## AI基础设施\n\n- [AI 集群基础设施 NVMe SSD 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672098336)\n- [AI 集群基础设施 InfiniBand 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F673903240)\n- [大模型训练基础设施：算力篇]()\n\n\n### AI加速卡\n\n- [AI芯片技术原理剖析（一）：国内外AI芯片概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667686665)\n- AI芯片技术原理剖析（二）：英伟达GPU \n- AI芯片技术原理剖析（三）：谷歌TPU\n\n### AI集群\n\n待更新...\n\n\n### [AI集群网络通信](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fnetwork-communication)\n\n待更新...\n\n- 分布式训练网络通讯原语\n- AI 集群通信软硬件\n\n\n## LLMOps\n\n- [在 Kubernetes 上部署机器学习模型的指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676389726)\n- [使用 Kubernetes 部署机器学习模型的优势](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7320513026188099619)\n\n\n\n## LLM生态相关技术\n\n- [大模型词表扩充必备工具SentencePiece](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F630696264)\n- [大模型实践总结](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F601594836\u002Fanswer\u002F3032763174)\n- [ChatGLM 和 ChatGPT 的技术区别在哪里？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F604393963\u002Fanswer\u002F3061358152)\n- [现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F602504880\u002Fanswer\u002F3041965998)\n- [为什么很多新发布的大模型默认使用BF16而不是FP16？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F616600181\u002Fanswer\u002F3195333332)\n- [大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652836990\u002Fanswer\u002F3468210626)\n- [一文详解模型权重存储新格式 Safetensors](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7386360803039838235)\n- [一文搞懂大模型文件存储格式新宠GGUF](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7408858126042726435)\n- [DeepGEMM 技术剖析](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7520475965081813055)\n\n\n## LLM性能分析\n\n\n- PyTorch Profiler\n- NVIDIA Nsight Systems \n- NVIDIA Nsight Compute\n\n\n## [LLM面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002FREADME.md)\n\n正在收集中...\n\n- [大模型基础常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fbase.md)\n- [大模型算法常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-algo.md)\n- [大模型训练常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-train.md)\n- [大模型微调常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-ft.md)\n- [大模型评估常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-eval.md)\n- [大模型压缩常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-compress.md)\n- [大模型推理常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-inference.md)\n- [大模型应用常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-app.md)\n- [大模型综合性面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fcomprehensive.md)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## 服务器基础环境安装及常用工具\n\n基础环境安装：\n\n- [英伟达A800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fa800-env-install.md)\n- [英伟达H800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fh800-env-install.md)\n- [昇腾910加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm_localization\u002Fascend910-env-install.md)\n\n常用工具：\n\n- [Linux 常见命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6992742028605915150)\n- [Conda 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7089093437223338015)\n- [Poetry 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6999405667261874183)\n- [Docker 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016238524286861325)\n- [Docker Dockerfile 指令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016595442062327844)\n- [Kubernetes 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7031201391553019911)\n- [集群环境 GPU 管理和监控工具 DCGM 常用命令大全](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdcgmi.md)\n\n## LLM学习交流群\n\n我创建了大模型相关的学习交流群，供大家一起学习交流大模型相关的最新技术，目前已有5个群，每个群都有上百人的规模，**可加我微信进群**（加微信请备注来意，如：进大模型学习交流群+GitHub，进大模型推理加速交流群+GitHub、进大模型应用开发交流群+GitHub、进大模型校招交流群+GitHub等）。**一定要备注哟，否则不予通过**。\n\nPS：**成都有个本地大模型交流群，想进可以另外单独备注下。**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fpic\u002Fwx.jpg\">\n\u003C\u002Fp>\n\n## 微信公众号\n\n微信公众号：**吃果冻不吐果冻皮**，该公众号主要分享AI工程化（大模型、MLOps等）相关实践经验，免费电子书籍、论文等。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fpic\u002Fwx-gzh.png\" >\n\u003C\u002Fp>\n\n**[⬆ 一键返回目录](#目录)**\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=liguodongiot\u002Fllm-action&type=Date)](https:\u002F\u002Fstar-history.com\u002F#liguodongiot\u002Fllm-action&Date)\n\n\n## AI工程化课程推荐\n\n如今人工智能的发展可谓是如火如荼，ChatGPT、Sora、文心一言等AI大模型如雨后春笋般纷纷涌现。AI大模型优势在于它能处理复杂性问题；因此，越来越多的企业需要具备**AI算法设计、AI应用开发、模型推理加速及模型压缩**等AI工程化落地的能力。这就导致行业内的工程师，需要快速提升自身的技术栈，以便于在行业内站稳脚跟。我在[llm-resource](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-resource) 和 [ai-system](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fai-system)梳理了一些大模型和AI工程化相关资料。\n\n\n\n\n\n\n","本项目旨在分享大模型相关技术原理以及实战经验，涵盖从大模型工程化到应用落地的全过程。核心功能包括大模型训练、推理优化、压缩技术、效果评测及数据工程等多个方面，并深入探讨了分布式训练、参数高效微调等关键技术。适合希望深入了解大模型开发流程及其优化方法的研究人员和技术爱好者使用。通过丰富的案例和详细的教程，该项目为读者提供了从理论到实践的一站式学习资源。",2,"2026-06-11 03:38:58","high_star"]