
Megatron-LM
NVIDIA
Ongoing research training transformer models at scale
AI 简介
NVIDIA/Megatron-LM是一个用于大规模训练Transformer模型的GPU优化库。其核心功能包括提供高效的Transformer构建块、多种并行策略(如张量并行TP、流水线并行PP等)、以及对混合精度的支持,旨在帮助研究人员和开发者实现更高效的大规模模型训练。Megatron-LM特别适合需要进行分布式训练的研究团队、希望快速实验新想法的学习者,以及正在开发自定义训练框架的机器学习工程师。此外,通过Megatron Bridge还可以实现与Hugging Face模型之间的双向转换,进一步扩展了其应用场景。
Python
Other16.7k
Stars
4.1k
Forks
167
Watchers
356
Issues
Star 增长
今日+14
近 7 天+89
近 30 天+379
综合评分120
默认分支main