[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-74096":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":23,"hasPages":23,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":28,"readmeContent":29,"aiSummary":30,"trendingCount":16,"starSnapshotCount":16,"syncStatus":31,"lastSyncTime":32,"discoverSource":33},74096,"AIInfra","Infrasys-AI\u002FAIInfra","Infrasys-AI","AIInfra（AI 基础设施）指AI系统从底层芯片等硬件，到上层软件栈支持AI大模型训练和推理。","https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F",null,"Jupyter Notebook",7303,946,65,11,0,36,123,316,108,39.93,"Apache License 2.0",false,"main",[26,27],"aiinfra","aisystem","2026-06-12 02:03:22","\u003C!--Copyright © ZOMI 适用于[License](https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAIInfra)版权许可-->\n\n# AIInfra\n\n文字课程内容正在一节节补充更新，尽可能抽空继续更新正在 :octocat: [AIInfra](https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAIInfra)，希望您多多鼓励和参与进来！！！\n\n文字课程开源在 :hamburger: [AIInfra](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs)，系列视频托管[B 站 ZOMI 酱](https:\u002F\u002Fspace.bilibili.com\u002F517221395)和 :yt: [油管 ZOMI6222](https:\u002F\u002Fwww.youtube.com\u002F@zomi6222\u002Fvideos)，PPT 开源在 :octocat: [AIInfra](https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAIInfra)，欢迎引用！\n\n## 课程背景\n\n这个开源项目英文名字叫做 **AIInfra**，中文名字叫做 **AI 基础设施**。大模型是基于 AI 集群的全栈软硬件性能优化，通过最小的每一块 AI 芯片组成的 AI 集群，编译器使能到上层的 AI 框架，训练过程需要分布式并行、集群通信等算法支持，而且在大模型领域最近持续演进如智能体等新技术。\n\n本开源课程主要是跟大家一起探讨和学习人工智能、深度学习的系统设计，而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 大模型系统的基础软硬件栈，因此成为 AI 基础设施。希望跟所有关注 AI 开源课程的好朋友一起探讨研究，共同促进学习讨论。\n\n与 **AISystem**[https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAISystem] 项目最大的区别就是 **AIInfra** 项目主要针对大模型，特别是大模型在分布式集群、分布式架构、分布式训练、大模型算法等相关领域进行深度展开。\n\n![大模型系统全栈](static\u002Fimages\u002Faifoundation01.jpg)\n\n## :clapper: 课程内容大纲\n\n课程主要包括以下模块，内容陆续更新中，欢迎贡献：\n\n| 序列 | 教程内容 | 简介 | 地址 |\n| --- | --------------- | ------------------------------------------------------------------------------------------------- | ---------------------------- |\n| 00 | :checkered_flag: [大模型系统概述](#00-大模型系统概述) | 系统梳理了大模型关键技术点，涵盖 Scaling Law 的多场景应用、训练与推理全流程技术栈、AI 系统与大模型系统的差异，以及未来趋势如智能体、多模态、轻量化架构和算力升级。 | [Slides](.\u002F00Summary\u002F) |\n| 01 | :checkered_flag: [AI 计算集群](#01-AI-计算集群) | 大模型虽然已经慢慢在端测设备开始落地，但是总体对云端的依赖仍然很重很重，AI 集群会介绍集群运维管理、集群性能、训练推理一体化拓扑流程等内容。 | [Slides](.\u002F01AICluster\u002F) |\n| 02 | :checkered_flag: [通信与存储](#02-通信与存储) | 大模型训练和推理的过程中都严重依赖于网络通信，因此会重点介绍通信原理、网络拓扑、组网方案、高速互联通信的内容。存储则是会从节点内的存储到存储 POD 进行介绍。 | [Slides](.\u002F02StorComm\u002F) |\n| 03 | :checkered_flag: [集群容器与云原生](#03-集群容器与云原生) | 讲解容器与 K8S 技术原理及 AI 模型部署实践，涵盖容器基础、Docker 与 K8S 核心概念、集群搭建、AI 应用部署、任务调度、资源管理、可观测性、高可靠设计等云原生与大模型结合的关键技术点。 | [Slides](.\u002F03DockCloud\u002F) |\n| 04 | :checkered_flag: [分布式训练](#04-大模型训练) | 大模型训练是通过大量数据和计算资源，利用 Transformer 架构优化模型参数，使其能够理解和生成自然语言、图像等内容，广泛应用于对话系统、文本生成、图像识别等领域。 | [Slides](.\u002F04Train\u002F) |\n| 05 | :checkered_flag: [分布式推理](#05-大模型推理) | 大模型推理核心工作是优化模型推理，实现推理加速，其中模型推理最核心的部分是 Transformer Block。本节会重点探讨大模型推理的算法、调度策略和输出采样等相关算法。 | [Slides](.\u002F05Infer\u002F) |\n| 06 | :checkered_flag: [大模型算法与数据](#06-大模型算法与数据) | Transformer 起源于 NLP 领域，近期统治了 CV\u002FNLP\u002F多模态的大模型，我们将深入地探讨 Scaling Law 背后的原理。在大模型算法背后数据和算法的评估也是核心的内容之一，如何实现 Prompt 和通过 Prompt 提升模型效果。 | [Slides](.\u002F06AlgoData\u002F) |\n| 07 | :checkered_flag: [大模型应用](#07-大模型应用) | 当前大模型技术已进入快速迭代期。这一时期的显著特点就是技术的更新换代速度极快，新算法、新模型层出不穷。因此本节内容将会紧跟大模型的时事内容，进行深度技术分析。 | [Slides](.\u002F07Application\u002F) |\n\n## 课程细节\n\n### **[00. 大模型系统概述](.\u002F00Summary\u002F)**\n\n系统梳理了大模型关键技术点，涵盖 Scaling Law 的多场景应用、训练与推理全流程技术栈、AI 系统与大模型系统的差异，以及未来趋势如智能体、多模态、轻量化架构和算力升级。\n\n| 大纲  | 小结       | 链接      | 状态 |\n|:---:|:--- |:--- |:---:|\n| 概述      | 01. [Scaling Law 整体解读](.\u002F00Summary\u002F01ScalingLaw.md) | [Markdown](.\u002F00Summary\u002F01ScalingLaw.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F01ScalingLaw.html)  | :o: |\n| 概述      | 02. [Standard Scaling Law](.\u002F00Summary\u002F02StandardScaling.md) | [Markdown](.\u002F00Summary\u002F02StandardScaling.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F02StandardScaling.html)  | :white_check_mark: |\n| 概述      | 03. [Inference Time Scaling Law](.\u002F00Summary\u002F03TTScaling.md) | [Markdown](.\u002F00Summary\u002F03TTScaling.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F03TTScaling.html)  | :o: |\n| 概述      | 04. [大模型训练与 AI Infra 的关系分析](.\u002F00Summary\u002F04TrainingStack.md) | [Markdown](.\u002F00Summary\u002F04TrainingStack.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F04TrainingStack.html)  | :white_check_mark: |\n| 概述      | 05. [大模型推理与 AI Infra 的关系分析](.\u002F00Summary\u002F05InferStack.md) | [Markdown](.\u002F00Summary\u002F05InferStack.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F05InferStack.html) | :white_check_mark: |\n| 概述      | 06. [AI Infra 核心逻辑与行业趋势](.\u002F00Summary\u002F06Future.md) | [Markdown](.\u002F00Summary\u002F06Future.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F00Summary\u002F06Future.html)  | :white_check_mark: |\n\n---\n\n### **[01. AI 计算集群](.\u002F01AICluster\u002F)**\n\nAI 集群架构演进、万卡集群方案、性能建模与优化，GPU\u002FNPU 精度差异及定位方法。\n\n| 编号  | 名称       | 具体内容      | 状态 |\n|:---:|:--- |:--- |:---:|\n| 1      | [计算集群之路](.\u002F01AICluster\u002F01Roadmap\u002F) |  高性能计算集群发展与万卡 AI 集群建设及机房基础设施挑战  | :white_check_mark: |\n| 2      | [L0\u002FL1 AI 集群基建](.\u002F01AICluster\u002F02L0L1Base\u002F)   | 服务器节点的基础知识、散热技术的发展与实践       | :white_check_mark: |\n| 3      | [万卡 AI 集群](.\u002F01AICluster\u002F03SuperPod\u002F)  | 围绕万卡 AI 集群从存算网络协同、快速交付与紧张工期等挑战   | :white_check_mark: |\n| 4      | [集群性能分析](.\u002F01AICluster\u002F04Performance\u002F)  | 集群性能指标分析、建模与常见问题定位方法解析   | :o: |\n\n#### :triangular_flag_on_post: [1.4 集群性能分析](.\u002F01AICluster\u002F04Performance\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---- |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| 性能 实践 :computer: | CODE 01: 拆解 Transformer-Decoder | [Markdown](.\u002F01AICluster\u002F04Performance\u002FCODE01Modeling.md), [Jupyter](.\u002F01AICluster\u002F04Performance\u002FCODE01Modeling.md), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F01AICluster04Performance\u002FCODE01Modeling.html) | :white_check_mark: |\n| 性能 实践 :computer: | CODE 02: MOE 参数量和计算量 | [Markdown](.\u002F01AICluster\u002F04Performance\u002FCODE02MOE.md), [Jupyter](.\u002F01AICluster\u002F04Performance\u002FCODE02MOE.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F01AICluster04Performance\u002FCODE02MOE.html) | :white_check_mark: |\n| 性能 实践 :computer: | CODE 03: MFU 模型利用率评估 | [Markdown](.\u002F01AICluster\u002F04Performance\u002FCODE03MFU.md), [Jupyter](.\u002F01AICluster\u002F04Performance\u002FCODE03MFU.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F01AICluster04Performance\u002FCODE03MFU.html) | :white_check_mark: |\n\n---\n\n### **[02. 通信与存储](.\u002F02StorComm\u002F)**\n\n通信与存储篇：AI 集群组网技术、高速互联方案、集合通信原理与优化、存储系统设计及大模型挑战。\n\n| 编号  | 名称       | 具体内容      | 状态 |\n|:---:|:--- |:--- |:--- |\n| 1      | [集群组网之路](.\u002F02StorComm\u002F01Roadmap\u002F) | AI 集群组网架构设计与高速互联技术解析  | :white_check_mark: |\n| 2      | [网络通信进阶](.\u002F02StorComm\u002F02NetworkComm\u002F) | 网络通信技术进阶：高速互联、拓扑算法与拥塞控制解析  | :o: |\n| 3      | [集合通信原理](.\u002F02StorComm\u002F03CollectComm\u002F) | 通信域、通信算法、集合通信原语  | :white_check_mark: |\n| 4      | [集合通信库](.\u002F02StorComm\u002F04CommLibrary\u002F)   | 集合通信库技术解析：MPI、NCCL 与 HCCL 架构及算法原理  | :white_check_mark: |\n| 5      | [集群存储之路](.\u002F02StorComm\u002F05StorforAI\u002F) | 数据存储、CheckPoint 梯度检查点等存储与大模型结合的相关技术  | :white_check_mark: |\n\n---\n\n### **[03. 集群容器与云原生](.\u002F03DockCloud\u002F)**\n\nAI 集群云原生篇：容器技术、K8S 编排、AI 云平台与任务调度，提升集群资源管理与应用部署效率。\n\n| 编号  | 名称       | 具体内容      |\n|:---:|:--- |:--- |\n| 1      | [容器时代](.\u002F03DockCloud\u002F01Roadmap\u002F) | 容器技术基础与云原生架构解析，结合分布式训练应用实践  |\n| 2      | [容器初体验](.\u002F03DockCloud\u002F02DockerK8s\u002F) | Docker 与 K8S 基础原理及实战，涵盖容器技术与集群管理架构解析  |\n| 3      | [深入 K8S](.\u002F03DockCloud\u002F03DiveintoK8s\u002F) |  K8S 核心机制深度解析：编排、存储、网络、调度与监控实践 |\n| 4      | [AI 云平台](.\u002F03DockCloud\u002F04CloudforAI\u002F) |  AI 云平台演进与云原生架构解析，涵盖持续交付与智能化运维实践  |\n\n---\n\n### **[04. 分布式训练](.\u002F04Train\u002F)**\n\n大模型训练全解析：并行策略、加速算法、微调与评估，覆盖训练到优化的完整流程。\n\n| 编号  | 名称       | 具体内容      |\n|:---:|:--- |:--- |\n| 1      | [4.1 分布式并行基础](.\u002F04Train\u002F01ParallelBegin\u002F) | 分布式并行的策略分类、模型适配与硬件资源优化对比  |\n| 2      | [4.2 大模型并行进阶](.\u002F04Train\u002F02ParallelAdv\u002F) | Megatron、DeepSeed 架构解析、MoE 扩展与高效训练策略 |\n| 3      | [4.3 大模型训练加速](.\u002F04Train\u002F03TrainAcceler\u002F) | 大模型训练加速在算法优化、内存管理与通算融合策略解析  |\n| 4      | [4.4 后训练与强化学习](.\u002F04Train\u002F04PostTrainRL\u002F) |  后训练与强化学习算法对比、框架解析与工程实践  |\n| 5      | [4.5 大模型微调 SFT](.\u002F04Train\u002F05FineTune\u002F) |  大模型微调算法原理、变体优化与多模态实践  |\n| 6      | [4.6 大模型验证评估](.\u002F04Train\u002F06VerifValid\u002F) | 大模型评估、基准测试与统一框架解析   |\n\n#### :triangular_flag_on_post: [4.1 分布式并行基础](.\u002F04Train\u002F01ParallelBegin\u002F)\n\n| 大纲 | 小节 | 链接| 状态 |\n|:-- |:-- |:-- |:--: |\n| 分布式并行 | 01 分布式并行框架介绍  | [PPT](.\u002F04Train\u002F01ParallelBegin\u002F01Introduction.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1op421C7wp) | |\n| 分布式并行 | 02 DeepSpeed 介绍  | [PPT](.\u002F04Train\u002F01ParallelBegin\u002F02DeepSpeed.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1tH4y1J7bm) | |\n| 并行 实践 :computer: | CODE 01: 从零构建 PyTorch DDP | [Markdown](.\u002F04Train\u002F01ParallelBegin\u002FCode01DDP.md), [Jupyter](.\u002F04Train\u002F01ParallelBegin\u002FCode01DDP.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train01ParallelBegin\u002FCode01DDP.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 02: PyTorch 实现模型并行 | [Markdown](.\u002F04Train\u002F01ParallelBegin\u002FCode02MP.md), [Jupyter](.\u002F04Train\u002F01ParallelBegin\u002FCode02MP.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train01ParallelBegin\u002FCode02MP.html) | :white_check_mark: |\n\n#### :triangular_flag_on_post: [4.2 大模型并行进阶](.\u002F04Train\u002F02ParallelAdv\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:-- |:-- |:-- |:--:|\n| 分布式并行 | 01 优化器并行 ZeRO1\u002F2\u002F3 原理  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F01DSZero.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1fb421t7KN) | |\n| 分布式并行 | 02 Megatron-LM 代码概览  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F02Megatron.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV12J4m1K78y) | |\n| 分布式并行 | 03 大模型并行与 GPU 集群配置  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F03MGConfig.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1NH4y1g7w4) | |\n| 分布式并行 | 04 Megatron-LM TP 原理  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F04MGTPPrinc.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1yw4m1S71Y) | |\n| 分布式并行 | 05 Megatron-LM TP 代码解析  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F05MGTPCode.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1cy411Y7B9) | |\n| 分布式并行 | 06 Megatron-LM SP 代码解析  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F06MGSPPrinc.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1EM4m1r7tm) | |\n| 分布式并行 | 07 Megatron-LM PP 基本原理  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F07MGPPPrinc.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV18f42197Sx) | |\n| 分布式并行 | 08 流水并行 1F1B\u002F1F1B Interleaved 原理  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F08MGPPCode.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1aD421g7yZ) | |\n| 分布式并行 | 09 Megatron-LM 流水并行 PP 代码解析  | [PPT](.\u002F04Train\u002F02ParallelAdv\u002F08MGPPCode.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1hs421g7vN) | |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| 并行 实践 :computer: | CODE 01: ZeRO 显存优化实践 | [Markdown](.\u002F04Train\u002F02ParallelAdv\u002FCode01ZeRO.md), [Jupyter](.\u002F04Train\u002F02ParallelAdv\u002FCode01ZeRO.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train02ParallelAdv\u002FCode01ZeRO.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 02: Megatron 张量并行复现 | [Markdown](.\u002F04Train\u002F02ParallelAdv\u002FCode02Megatron.md), [Jupyter](.\u002F04Train\u002F02ParallelAdv\u002FCode02Megatron.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train02ParallelAdv\u002FCode02Megatron.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 03: Pipeline 并行实践 | [Markdown](.\u002F04Train\u002F02ParallelAdv\u002FCode03Pipeline.md), [Jupyter](.\u002F04Train\u002F02ParallelAdv\u002FCode03Pipeline.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train02ParallelAdv\u002FCode03Pipeline.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 04: 专家并行大规模训练 | [Markdown](.\u002F04Train\u002F02ParallelAdv\u002FCode04Expert.md), [Jupyter](.\u002F04Train\u002F02ParallelAdv\u002FCode04Expert.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train02ParallelAdv\u002FCode04Expert.html) | :white_check_mark: |\n\n#### :triangular_flag_on_post: [4.3 大模型训练加速](.\u002F04Train\u002F03TrainAcceler\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---:|\n| 大模型训练加速 |   | [PPT](), [文章](), [视频]() | |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| 并行 实践 :computer: | CODE 01: Flash Attention 实现 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode01FlashAtten.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode01FlashAtten.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train03TrainAcceler\u002FCode01FlashAtten.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 02: 梯度检查点内存优化 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode02GradCheck.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode02GradCheck.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train03TrainAcceler\u002FCode02GradCheck.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 03: FP8 混合精度训练  | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode03FP8.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode03FP8.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train03TrainAcceler\u002FCode03FP8.html) | :white_check_mark: |\n| 并行 实践 :computer: | CODE 04: Ring Attention 实践 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode04RingAttn.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode04RingAttn.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train03TrainAcceler\u002FCode04RingAttn.html) | :white_check_mark: |\n\n#### :triangular_flag_on_post: [4.4 大模型后训练与强化学习](.\u002F04Train\u002F04PostTrainRL\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---:|\n|  |  | [PPT](), [文章](), [视频]() |  |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| RL 实践 :computer: | CODE 01: 经典 InstructGPT 复现 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode01InstructGPT.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode01InstructGPT.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train04PostTrainRL\u002FCode01InstructGPT.html) | :white_check_mark: |\n| RL 实践 :computer: | CODE 02: DPO 与 PPO 在 LLM 对比 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode02DPOPPO.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode02DPOPPO.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train04PostTrainRL\u002FCode02DPOPPO.html) | :white_check_mark: |\n| RL 实践 :computer: | CODE 03: LLM + GRPO 实践  | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode03GRPO.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode03GRPO.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train04PostTrainRL\u002FCode03GRPO.html) | :white_check_mark: |\n\n#### :triangular_flag_on_post: [4.5 大模型微调 SFT](.\u002F04Train\u002F05FineTune\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---:|\n|  |  | [PPT](), [文章](), [视频]() |  |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| SFT 实践 :computer: | CODE 01: Qwen3-4B 模型微调 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode01Qwen3SFT.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode01Qwen3SFT.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train05FineTune\u002FCode01Qwen3SFT.html) | :white_check_mark: |\n| SFT 实践 :computer: | CODE 02: LoRA 微调 SD | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode02SDLoRA.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode02SDLoRA.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train05FineTune\u002FCode02SDLoRA.html) | :white_check_mark: |\n\n#### :triangular_flag_on_post: [4.6 大模型验证评估](.\u002F04Train\u002F06VerifValid\u002F)\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---:|\n|  |  | [PPT](), [文章](), [视频]() |  |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| EVA 实践 :computer: | CODE 01: OpenCompass 评估实践 | [Markdown](.\u002F04Train\u002F03TrainAcceler\u002FCode01OpenCompass.md), [Jupyter](.\u002F04Train\u002F03TrainAcceler\u002FCode01OpenCompass.ipynb), [文章](https:\u002F\u002Finfrasys-ai.github.io\u002Faiinfra-docs\u002F04Train06VerifValid\u002FCode01OpenCompass.html) | :white_check_mark: |\n\n---\n\n### **[05. 分布式推理](.\u002F05Infer\u002F)**\n\n大模型推理全解析：加速技术、架构优化、长序列处理与压缩方案，覆盖推理全流程与实战实践。\n\n| 编号  | 名称       | 具体内容      |\n|:---:|:--- |:--- |\n| 1      | [5.1 基本概念](.\u002F05Infer\u002F01Foundation) |  大模型推理流程、框架对比与性能指标解析 |\n| 2      | [5.2 大模型推理加速](.\u002F05Infer\u002F02InferSpeedUp) | 大模型推理加速中 KV 缓存优化、算子改进与高效引擎解析 |\n| 3      | [5.3 架构调度加速](.\u002F05Infer\u002F03SchedSpeedUp) | 架构调度加速中缓存优化、批处理与分布式系统调度解析 |\n| 4      | [5.4 长序列推理](.\u002F05Infer\u002F04LongInfer) | 长序列推理算法优化、并行策略与高效生成方法解析 |\n| 5      | [5.5 输出采样](.\u002F05Infer\u002F05OutputSamp) | 推理输出采样的基础方法、加速策略与 MOE 推理优化 |\n| 6      | [5.6 大模型压缩](.\u002F05Infer\u002F06CompDistill) | 低精度量化、知识蒸馏与高效推理优化解析 |\n\n#### :triangular_flag_on_post: [5.1 基本概念](.\u002F05Infer\u002F01Foundation\u002F)\n\n---\n\n### **[06. 大模型算法与数据](.\u002F06AlgoData\u002F)**\n\n大模型算法与数据全览：Transformer 架构、MoE 创新、多模态模型与数据工程全流程实践。\n\n| 编号  | 名称       | 具体内容      | 状态 |\n|:---:|:--- |:--- |:--- |\n| 1      | [Transformer 架构](.\u002F06AlgoData\u002F01Basic\u002F) | Transformer 架构原理深度介绍 | :white_check_mark: |\n| 2      | [MoE 架构](.\u002F06AlgoData\u002F02MoE\u002F) | MoE(Mixture of Experts) 混合专家模型架构原理与细节实现 | :white_check_mark: |\n| 3      | [创新架构](.\u002F06AlgoData\u002F03NewArch) | SSM、MMABA、RWKV、Linear Transformer、JPEA 等新大模型结构 | :o: |\n| 4      | [图文生成与理解](.\u002F06AlgoData\u002F04ImageTextGenerat) | 多模态对齐、生成、理解及统一多模态架构解析  | :o: |\n| 5      | [视频大模型](.\u002F06AlgoData\u002F05VideoGenerat) | 视频多模态理解与生成方法演进及 Flow Matching 应用 | :o: |\n| 6      | [语音大模型](.\u002F06AlgoData\u002F06AudioGenerat) | 语音多模态识别、合成与端到端模型演进及推理应用  | :o: |\n| 7      | [数据工程](.\u002F06AlgoData\u002F07DataEngineer) | 数据工程、Prompt Engine 等相关技术 | :o: |\n\n#### :triangular_flag_on_post: Transformer 架构详细内容\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---- |\n| Transformer 架构 | 01 Transformer 基础结构 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F01Transformer.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1rt421476q\u002F), [文章](.\u002F01Basic\u002F01Transformer.md) | :white_check_mark: |\n| Transformer 架构 | 02 大模型 Tokenizer 算法 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F02Tokenizer.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV16pTJz9EV4), [文章](.\u002F01Basic\u002F02Tokenizer.md) | :white_check_mark: |\n| Transformer 架构 | 03 大模型 Embedding 算法 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F03Embeding.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1SSTgzLEzf), [文章](.\u002F01Basic\u002F03Embeding.md) | :white_check_mark: |\n| Transformer 架构 | 04 Attention 注意力机制 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F04Attention.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV11AMHzuEet), [文章](.\u002F01Basic\u002F04Attention.md) | :white_check_mark: |\n| Transformer 架构 | 05 Attention 变种算法 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F05GQAMLA.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1GzMUz8Eav), [文章](.\u002F01Basic\u002F05GQAMLA.md) | :white_check_mark: |\n| Transformer 架构 | 06 Transformer 长序列架构 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F06LongSeq.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV16PN6z6ELg), [文章](.\u002F01Basic\u002F06LongSeq.md) | :white_check_mark: |\n| Transformer 架构 | 07 大模型参数设置 | [PPT](.\u002F06AlgoData\u002F01Basic\u002F07Parameter.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1nTNkzjE3J), [文章](.\u002F01Basic\u002F07Parameter.md) | :white_check_mark: |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| Transformer 实践 :computer: | 01 搭建迷你 Transformer | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice01MiniTranformer.md), [Jupyter](.\u002F01Basic\u002FPractice01MiniTranformer.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 02 从零实现 Transformer 训练 | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice02TransformerTrain.md), [Jupyter](.\u002F01Basic\u002FPractice02TransformerTrain.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 03 实战 Transformer 机器翻译 | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice03MachineTrans.md), [Jupyter](.\u002F01Basic\u002FPractice03MachineTrans.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 04 手把手实现核心机制 Sinusoidal 编码 | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice04Sinusoidal.md), [Jupyter](.\u002F01Basic\u002FPractice04Sinusoidal.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 05 手把手实现核心机制 BPE 分词算法 | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice05BPE.md), [Jupyter](.01Basic\u002FPractice05BPE.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 06 手把手实现核心机制 Embedding 词嵌入 | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice06Embedding.md), [Jupyter](.\u002F01Basic\u002FPractice06Embedding.ipynb) | :white_check_mark: |\n| Transformer 实践 :computer: | 07 深入注意力机制 MHA、MQA、GQA、MLA | [Markdown](.\u002F06AlgoData\u002F01Basic\u002FPractice07Attention.md), [Jupyter](.\u002F01Basic\u002FPractice07Attention.ipynb) | :white_check_mark: |\n\n#### :triangular_flag_on_post: MOE 架构原理详细内容\n\n| 大纲 | 小节 | 链接 | 状态 |\n|:--- |:---- |:-------------------- |:---- |\n| MOE 基本介绍 | 01 MOE 架构剖析  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F01MOEIntroducion.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV17PNtekE3Y\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F01MOEIntroducion.md) | :white_check_mark: |\n| MOE 前世今生 | 02 MOE 前世今生  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F02MOEHistory.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1y7wZeeE96\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F02MOEHistory.md) | :white_check_mark: |\n| MOE 核心论文 | 03 MOE 奠基论文  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F03MOECreate.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1MiAYeuETj\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F03MOECreate.md) | :white_check_mark: |\n| MOE 核心论文 | 04 MOE 初遇 RNN  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F04MOERNN.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1RYAjeKE3o\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F04MOERNN.md) | :white_check_mark: |\n| MOE 核心论文 | 05 GSard 解读  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F05MOEGshard.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1r8ApeaEyW\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F05MOEGshard.md) | :white_check_mark: |\n| MOE 核心论文 | 06 Switch Trans 解读  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F06MOESwitch.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1UsPceJEEQ\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F06MOESwitch.md) | :white_check_mark: |\n| MOE 核心论文 | 07 GLaM & ST-MOE 解读  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F07MOEGLaM_STMOE.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1L59qYqEVw\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F07GLaM_STMOE.md) | :white_check_mark: |\n| MOE 核心论文 | 08 DeepSeek MOE 解读  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F08DeepSeekMoE.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1tE9HYUEdz\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F08DeepSeekMoE.md) | :white_check_mark: |\n| MOE 架构原理 | 09 MOE 模型可视化  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F09MoECore.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Gj9ZYdE4N\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F09MoECore.md) | :white_check_mark: |\n| 大模型遇 MOE | 10 MoE 参数与专家  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F10MOELLM.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1UERNYqEwU\u002F), [文章](.\u002F06AlgoData\u002F02MoE\u002F10MOELLM.md) | :white_check_mark: |\n| 手撕 MOE 代码 | 11 单机单卡 MoE  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F11MOECode.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1UTRYYUE5o) | :white_check_mark: |\n| 手撕 MOE 代码 | 12 单机多卡 MoE  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F11MOECode.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1JaR5YSEMN) | :white_check_mark: |\n| 视觉 MoE | 13 视觉 MoE 模型  | [PPT](.\u002F06AlgoData\u002F02MoE\u002F12MOEFuture.pdf), [视频](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1JNQVYBEq7), [文章](.\u002F06AlgoData\u002F02MoE\u002F12MOEFuture.md) | :white_check_mark: |\n|:sparkling_heart:|:star2:|:sparkling_heart:| |\n| MOE 实践 :computer: | 01 基于 HF 实现 MOE 推理 | [Markdown](.\u002F06AlgoData\u002F02MoE\u002FCODE01MOEInfer.md), [Jupyter](.\u002F06AlgoData\u002F02MoE\u002Fnotebook\u002FCODE01MOEInfer.ipynb) | :white_check_mark: |\n| MOE 实践 :computer: | 02 从零开始手撕 MoE | [Markdown](.\u002F06AlgoData\u002F02MoE\u002FCODE02SignalMOE.md), [Jupyter](.\u002F06AlgoData\u002F02MoE\u002Fnotebook\u002FCODE02SignalMOE.ipynb) | :white_check_mark: |\n| MOE 实践 :computer: | 03 MoE 从原理到分布式实现 | [Markdown](.\u002F06AlgoData\u002F02MoE\u002FCODE03IntrtaMOE.md), [Jupyter](.\u002F06AlgoData\u002F02MoE\u002Fnotebook\u002FCODE03IntrtaMOE.ipynb) | :white_check_mark: |\n| MOE 实践 :computer: | 04 MoE 分布式性能分析 | [Markdown](.\u002F06AlgoData\u002F02MoE\u002FCODE04MOEAnalysize.md), [Jupyter](.\u002F06AlgoData\u002F02MoE\u002Fnotebook\u002FCODE04MOEAnalysize.ipynb) | :white_check_mark: |\n\n---\n\n### **[07. 大模型应用](.\u002F07Application\u002F)**\n\n大模型应用篇：AI Agent 技术、RAG 检索增强生成与 GraphRAG，推动智能体与知识增强应用落地。\n\n| 编号  | 名称       | 具体内容      |\n|:---:|:--- |:--- |\n| 00     | [大模型热点](.\u002F07Application\u002F00Others)   |  OpenAI、WWDC、GTC 等大会技术洞察   |\n| 01     | [Agent 简单概念](.\u002F07Application\u002F01Sample\u002F)   | AI Agent 智能体的原理、架构   |\n| 02     | [Agent 核心技术](.\u002F07Application\u002F02AIAgent\u002F)   | 深入 AI Agent 原理和核心   |\n| 03     | [检索增强生成(RAG)](.\u002F07Application\u002F03RAG\u002F)   |  检索增强生成技术的介绍  |\n| 04     | [自动驾驶](.\u002F07Application\u002F04AutoDrive\u002F)   |  端到端自动驾驶技术原理解析，萝卜快跑对产业带来的变化  |\n| 05     | [具身智能](.\u002F07Application\u002F05Embodied\u002F)   |  关于对具身智能的技术原理、具身架构和产业思考  |\n| 06     | [生成推荐](.\u002F07Application\u002F06Remmcon\u002F)   |  推荐领域的革命发展历程，大模型迎来了生成式推荐新的增长  |\n| 07     | [AI 安全](.\u002F07Application\u002F07Safe\u002F)   |  隐私计算发展过程，隐私计算未来发展如何？  |\n| 08     | [AI 历史十年](.\u002F07News\u002F06History\u002F)   |  过去十年 AI 大事件回顾，2012 到 2025 从模型、算法、芯片硬件发展  |\n\n## 知识清单\n\n![大模型系统全栈](static\u002Fimages\u002Faifoundation02.png)\n\n## Contributing to AIInfra\n\nConsidering contibuting to AIInfra? To get started, please take a moment to read the CONTRIBUTING.md guide.\n\nJoin Aim contributors by submitting your first pull request. Happy coding! 😊\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAIInfra\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Fcontrib.rocks\u002Fimage?repo=Infrasys-AI\u002FAIInfra\" \u002F>\n\u003C\u002Fa>\n\nMade with [contrib.rocks](https:\u002F\u002Fcontrib.rocks).\n\n## 备注\n\n> 这个仓已经到达疯狂的 10G 啦（ZOMI 把所有制作过程、高清图片都原封不动提供），如果你要 git clone 会非常的慢，因此建议优先到  [Releases · chenzomi12\u002FAIInfra](https:\u002F\u002Fgithub.com\u002FInfrasys-AI\u002FAIInfra\u002Freleases) 来下载你需要的内容！\n>\n> 请大家尊重开源和 ZOMI 和贡献者的努力，引用 PPT 的内容请规范转载标明出处哦！\n","AIInfra 是一个专注于 AI 基础设施的开源项目，旨在支持从底层硬件到上层软件栈的大模型训练和推理。其核心功能包括分布式集群管理、高性能通信与存储解决方案、容器化与云原生技术集成、以及针对大模型的分布式训练和推理优化算法。该项目特别适合需要构建或优化大规模 AI 系统的开发者和研究者使用，尤其是在面对计算密集型任务时。通过提供详尽的教学资料和技术文档，AIInfra 为学习和应用全栈 AI 技术提供了宝贵资源。",2,"2026-06-11 03:48:47","high_star"]