
modded-nanogpt
KellerJordan
NanoGPT (124M) in 90 seconds
AI 简介
Modded-NanoGPT 是一个专注于使用8个NVIDIA H100 GPU在90秒内训练出达到3.28交叉熵损失的语言模型的项目。其核心功能包括通过现代架构如旋转嵌入、QK-Norm和ReLU²,以及Muon优化器等技术显著提高训练效率。此外,项目还采用了FP8矩阵乘法、跳过连接、Flash Attention 3等多种先进技术和系统优化手段。适合于追求高效语言模型训练的研究者和开发者,特别是在资源有限但需要快速获得高质量模型的情况下使用。
Python
MIT License5.4k
Stars
804
Forks
72
Watchers
16
Issues
Star 增长
今日0
近 7 天+24
近 30 天+119
综合评分86.72
默认分支master