datascale-ai

data_engineering_book

datascale-ai

大模型数据工程:架构、算法及项目实战

AI 简介

《大模型数据工程:架构、算法及项目实战》是一本专注于大型语言模型(LLM)数据处理的综合性指南。该项目通过Jupyter Notebook形式,系统性地介绍了从预训练数据清洗到多模态对齐、RAG检索增强、合成数据生成等关键技术,并深入探讨了DataOps平台建设和隐私合规治理等内容。它不仅提供了详尽的技术理论支持,还配套有10个端到端实战项目,涵盖分布式计算、数据存储优化、文本与多模态数据处理等多个方面,旨在帮助读者快速掌握构建高质量数据流水线所需的知识与技能。非常适合从事AI研发特别是关注于提升模型性能的数据科学家、工程师以及相关领域学者参考学习。

Python
MIT License
1.2k
Stars
109
Forks
12
Watchers
9
Issues

Star 增长

今日0
近 7 天+15
近 30 天+64
综合评分68.02
默认分支main