kingoflolz

mesh-transformer-jax

kingoflolz

Model parallel transformers in JAX and Haiku

AI 简介

Mesh Transformer JAX 是一个基于JAX和Haiku的模型并行化变压器库,主要使用`xmap`/`pjit`操作符实现。该项目支持高达约400亿参数规模的模型在TPUv3上高效运行,并提供了一种类似于Megatron-LM的并行方案以及实验性的ZeRo风格分片方法,以优化大规模模型训练时的内存使用效率。此外,它还预训练了GPT-J-6B模型,该模型拥有60亿参数,专为自回归文本生成任务设计。此项目非常适合需要利用TPU资源进行大规模语言模型训练或微调的研究者与开发者。

Python
Apache License 2.0
6.4k
Stars
884
Forks
104
Watchers
49
Issues

Star 增长

今日0
近 7 天+2
近 30 天+7
综合评分66.54
默认分支master