
mesh-transformer-jax
kingoflolz
Model parallel transformers in JAX and Haiku
AI 简介
Mesh Transformer JAX 是一个基于JAX和Haiku的模型并行化变压器库,主要使用`xmap`/`pjit`操作符实现。该项目支持高达约400亿参数规模的模型在TPUv3上高效运行,并提供了一种类似于Megatron-LM的并行方案以及实验性的ZeRo风格分片方法,以优化大规模模型训练时的内存使用效率。此外,它还预训练了GPT-J-6B模型,该模型拥有60亿参数,专为自回归文本生成任务设计。此项目非常适合需要利用TPU资源进行大规模语言模型训练或微调的研究者与开发者。
Python
Apache License 2.06.4k
Stars
884
Forks
104
Watchers
49
Issues
Star 增长
今日0
近 7 天+2
近 30 天+7
综合评分66.54
默认分支master