train-llm-from-scratch

FareedKhan-dev

A straightforward method for training your LLM, from downloading data to generating text.

AI 简介

这是一个从零实现并训练小型大语言模型（LLM）的开源项目，基于PyTorch完整复现Transformer架构。项目提供端到端流程：从下载Pile数据集、预处理、构建含多头注意力与前馈网络的模块化模型，到单GPU训练（支持千万级参数模型）及文本生成。代码逐层注释清晰，强调可理解性与教学性，不依赖Hugging Face等高层封装，适合深入理解LLM底层原理。适用于AI教学、算法验证、轻量级定制化语言模型研究等场景。

Python

gemini large-language-models llm openai training transformers

在 GitHub 查看

8.1k

Stars

1.1k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+678

综合评分72.15

默认分支main

train-llm-from-scratch

Star 增长

加入交流群