[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-75199":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":14,"compositeScore":20,"rankGlobal":10,"rankLanguage":10,"license":21,"archived":22,"fork":22,"defaultBranch":23,"hasWiki":24,"hasPages":24,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":26,"readmeContent":27,"aiSummary":28,"trendingCount":16,"starSnapshotCount":16,"syncStatus":29,"lastSyncTime":30,"discoverSource":31},75199,"data_engineering_book","datascale-ai\u002Fdata_engineering_book","datascale-ai","大模型数据工程：架构、算法及项目实战","https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F",null,"Python",1204,109,12,9,0,4,19,68,19.12,"MIT License",false,"main",true,[],"2026-06-12 02:03:33","# 《大模型数据工程：架构、算法及项目实战》\n\n[![GitHub Pages](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-GitHub%20Pages-blue)](https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-green)](LICENSE)\n\n**[English](README_en.md) | 中文 | [日本語](README_ja.md)**\n\n> **版本说明**：中文版是当前 2026 新版主线，已扩展为 28 章 + 10 个实战项目。英文版和日文版仍在跟进翻译，站点中会保留翻译状态说明页。\n\n## 简介\n\n> *\"Data is the new oil, but only if you know how to refine it.\"*\n\n在大模型时代，**数据质量决定模型上限**。然而，市面上关于 LLM 数据工程的系统性资料极为稀缺——大多数团队仍在\"摸着石头过河\"。\n\n本书正是为解决这一痛点而生。我们系统性地梳理了从**预训练数据清洗**到**多模态对齐**、从 **RAG 检索增强**到**合成数据生成**，再到 **DataOps 平台建设**与**隐私合规治理**的完整技术体系，涵盖：\n\n- 🧹 **预训练数据工程**：如何从 Common Crawl 等海量噪声数据中提炼出高质量语料\n- 🖼️ **多模态数据处理**：图文对、视频、音频数据的采集、清洗与对齐\n- 🎯 **对齐数据构造**：SFT 指令数据、RLHF 偏好数据、CoT 推理数据的自动化生成\n- 🤖 **推理与 Agent 数据**：思维链、Tool-Use、多轮交互与记忆数据工程\n- 🔍 **RAG 数据流水线**：企业级文档解析、语义切片与多模态检索\n- ⚙️ **DataOps 与平台建设**：团队组织、数据版本管理、平台可观测性\n- 🔒 **隐私合规与安全**：数据治理框架、联邦学习与隐私保护技术\n\n本书不仅有深入的理论讲解，更包含 **10 个端到端实战项目**，提供可运行的代码和详细的架构设计，让你能够**即学即用**。\n\n**在线阅读**: [https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F](https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F)\n\n## 全书架构\n\n![大模型数据工程全书架构](images\u002Fstructure_cn.png)\n\n*从原始数据到端到端应用的完整数据工程流水线*\n\n## 目录结构\n\n```\n📖 全书十大篇，28章 + 10个实战项目\n│\n├── 第一篇：总论与基础设施\n│   ├── 第1章：大模型时代的数据变革\n│   ├── 第2章：LLM 数据生命周期与质量评估框架\n│   └── 第3章：AI 原生数据栈与成本治理\n│\n├── 第二篇：文本预训练数据工程\n│   ├── 第4章：数据源、采集与版权\n│   ├── 第5章：清洗、去重与去污染\n│   ├── 第6章：分词、序列化与高效加载\n│   └── 第7章：数据评估、质量闭环与运营迭代\n│\n├── 第三篇：多模态数据工程\n│   ├── 第8章：图文对数据工程\n│   ├── 第9章：重标注与文档理解\n│   ├── 第10章：视频与音频数据工程\n│   └── 第11章：跨模态对齐与融合\n│\n├── 第四篇：指令微调与偏好数据\n│   ├── 第12章：SFT 数据设计与指令体系\n│   ├── 第13章：偏好数据与奖励信号\n│   └── 第14章：标注平台、QA 体系与数据运营\n│\n├── 第五篇：合成数据工程\n│   ├── 第15章：合成数据工厂：从种子到验证\n│   ├── 第16章：知识蒸馏与模型协作\n│   └── 第17章：合成数据质量控制与模型坍缩\n│\n├── 第六篇：推理与 Agent 数据工程\n│   ├── 第18章：思维链与推理数据工程\n│   ├── 第19章：Tool-Use 与函数调用数据\n│   └── 第20章：Agent 记忆与多轮交互数据\n│\n├── 第七篇：应用级数据工程\n│   ├── 第21章：RAG 数据流水线\n│   ├── 第22章：多模态 RAG 与视觉检索\n│   └── 第23章：在线反馈闭环与知识更新\n│\n├── 第八篇：数据运营与平台建设\n│   ├── 第24章：DataOps 飞轮与团队组织\n│   ├── 第25章：数据版本管理与实验追踪\n│   └── 第26章：数据平台可观测性\n│\n├── 第九篇：隐私合规与数据安全\n│   ├── 第27章：数据合规框架与治理\n│   └── 第28章：联邦学习与隐私保护技术\n│\n└── 第十篇：项目实战（P01-P10）\n    ├── 项目一：基于 Ray 构建分布式 Mini-C4 数据流水线\n    ├── 项目二：垂直领域专家 SFT（法律）\n    ├── 项目三：LLaVA 多模态指令数据工厂\n    ├── 项目四：合成数学与代码教材工厂\n    ├── 项目五：多模态 RAG 企业财报助手\n    ├── 项目六：CoT 推理数据集构建与 PRM 训练\n    ├── 项目七：Agent Tool-Use 数据工厂\n    ├── 项目八：企业级 DataOps 平台搭建：从数据项目到组织级治理能力\n    ├── 项目九：隐私保护数据流水线\n    └── 项目十：端到端 LLM 数据飞轮\n```\n\n## 核心亮点\n\n### 理论体系完整\n- **Data-Centric AI** 理念贯穿全书\n- 覆盖 LLM 数据全生命周期：预训练 → 微调 → RLHF → RAG → DataOps\n- 深入讲解 Scaling Laws、数据质量评估、多模态对齐、隐私合规等前沿话题\n\n### 技术栈现代化\n| 领域 | 技术选型 |\n|------|----------|\n| 分布式计算 | Ray Data, Spark, Dask |\n| 数据存储 | Parquet, WebDataset, 向量数据库 (Milvus\u002FQdrant) |\n| 文本处理 | Trafilatura, KenLM, MinHash LSH, fastText 质量评分 |\n| 多模态 | CLIP, ColPali, img2dataset |\n| 数据版本 | DVC, LakeFS, MLflow |\n| 平台可观测 | Great Expectations, Evidently AI, Apache Airflow |\n| 隐私保护 | 联邦学习, 差分隐私, 安全多方计算 |\n\n### 实战项目丰富\n\n| 项目 | 核心技术 | 输出 |\n|------|----------|------|\n| Mini-C4 预训练集 | Trafilatura + Ray + MinHash | 高质量文本语料库 |\n| 法律专家 SFT | Self-Instruct + CoT | 领域指令数据集 |\n| LLaVA 多模态指令 | Bbox 对齐 + 多图交错 | 视觉指令数据集 |\n| 合成数学教材 | Evol-Instruct + 沙箱验证 | PoT 推理数据集 |\n| 财报 RAG | ColPali + Qwen-VL | 多模态问答系统 |\n| CoT 推理 + PRM | 过程奖励模型 | 推理过程数据集 |\n| Agent Tool-Use | 工具调用链 + 轨迹标注 | Agent 训练数据集 |\n| DataOps 平台 | Airflow + DVC + 质量监控 | 企业级数据运营体系 |\n| 隐私保护流水线 | 联邦学习 + 差分隐私 | 合规训练数据流水线 |\n| LLM 数据飞轮 | 在线反馈 + 持续迭代 | 端到端闭环系统 |\n\n## 本地运行\n\n### 环境要求\n\n- Python 3.8+\n- MkDocs Material\n- mkdocs-static-i18n（多语言支持）\n\n### 安装与预览\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fdatascale-ai\u002Fdata_engineering_book.git\ncd data_engineering_book\n\n# 安装依赖\npip install mkdocs-material mkdocs-glightbox pymdown-extensions \"mkdocs-static-i18n[material]\"\n\n# 本地预览\nmkdocs serve\n```\n\n访问 http:\u002F\u002F127.0.0.1:8000 即可预览书籍（支持中\u002F英\u002F日切换）。\n\n### 构建静态站点\n\n```bash\nmkdocs build\n```\n\n生成的静态文件位于 `site\u002F` 目录。\n\n### 验证发布与项目\n\n```bash\n# 严格构建站点，检查导航、断链和多语言配置\nmkdocs build --strict --clean\n\n# 检查站点图片体积预算\npython scripts\u002Fcheck_image_sizes.py\n\n# 运行 P01-P10 的统一 smoke test，并生成 smoke_reports\u002F\npython scripts\u002Frun_all_project_smoke_tests.py\n```\n\n## 项目结构\n\n```\ndata_engineering_book\u002F\n├── docs\u002F\n│   ├── zh\u002F                    # 中文内容\n│   │   ├── index.md           # 中文首页\n│   │   └── part1\u002F ~ part10\u002F   # 各章节\n│   ├── en\u002F                    # 英文内容\n│   ├── ja\u002F                    # 日文内容\n│   ├── images\u002F                # 图片资源（中英共享）\n│   ├── stylesheets\u002F           # 自定义样式\n│   └── javascripts\u002F           # JavaScript (MathJax等)\n├── .github\u002Fworkflows\u002F         # GitHub Actions 自动部署\n├── images\u002F                    # 项目图片资源\n├── mkdocs.yml                 # MkDocs 配置文件\n├── LICENSE                    # 开源协议\n├── README.md                  # 中文说明（本文件）\n├── README_en.md               # English README\n└── README_ja.md               # 日本語 README\n```\n\n## 适合读者\n\n- 大模型研发工程师\n- 数据工程师 \u002F MLOps \u002F DataOps 工程师\n- AI 产品经理（技术向）\n- 对 LLM 数据流水线感兴趣的研究人员\n\n## 主要作者\n\n於俊教授团队\n\n**实验室信息**：  \n中国科学技术大学-语音及语言信息处理国家工程研究中心；中国科学技术大学-自动化系-多媒体计算及智能机器人研究中心；中国科学技术大学-自动化系-多模态智能体联合研究中心\n\n## 贡献指南\n\n欢迎提交 Issue 和 Pull Request！\n\n1. Fork 本仓库\n2. 创建特性分支 (`git checkout -b feature\u002FAmazingFeature`)\n3. 提交更改 (`git commit -m 'Add some AmazingFeature'`)\n4. 推送到分支 (`git push origin feature\u002FAmazingFeature`)\n5. 提交 Pull Request\n\n## 许可证\n\n本项目采用 MIT 许可证 - 详见 [LICENSE](LICENSE) 文件。\n\n## 联系我们\n\n- GitHub Issues: [提交问题](https:\u002F\u002Fgithub.com\u002Fdatascale-ai\u002Fdata_engineering_book\u002Fissues)\n- 在线阅读: [https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F](https:\u002F\u002Fdatascale-ai.github.io\u002Fdata_engineering_book\u002F)\n\n---\n\n**如果这本书对你有帮助，欢迎 Star 支持！** ⭐\n","《大模型数据工程：架构、算法及项目实战》是一本专注于大型语言模型（LLM）数据处理的综合性指南。该项目通过Jupyter Notebook形式，系统性地介绍了从预训练数据清洗到多模态对齐、RAG检索增强、合成数据生成等关键技术，并深入探讨了DataOps平台建设和隐私合规治理等内容。它不仅提供了详尽的技术理论支持，还配套有10个端到端实战项目，涵盖分布式计算、数据存储优化、文本与多模态数据处理等多个方面，旨在帮助读者快速掌握构建高质量数据流水线所需的知识与技能。非常适合从事AI研发特别是关注于提升模型性能的数据科学家、工程师以及相关领域学者参考学习。",2,"2026-06-11 03:52:37","high_star"]