NVIDIA

Megatron-LM

NVIDIA

Ongoing research training transformer models at scale

AI 简介

NVIDIA/Megatron-LM是一个用于大规模训练Transformer模型的GPU优化库。其核心功能包括提供高效的Transformer构建块、多种并行策略(如张量并行TP、流水线并行PP等)、以及对混合精度的支持,旨在帮助研究人员和开发者实现更高效的大规模模型训练。Megatron-LM特别适合需要进行分布式训练的研究团队、希望快速实验新想法的学习者,以及正在开发自定义训练框架的机器学习工程师。此外,通过Megatron Bridge还可以实现与Hugging Face模型之间的双向转换,进一步扩展了其应用场景。

Python
Other
16.7k
Stars
4.1k
Forks
167
Watchers
356
Issues

Star 增长

今日+14
近 7 天+89
近 30 天+379
综合评分120
默认分支main