
orbit
Sphere-AI-Lab
Stable and Efficient Reinforcement Learning for Trillion-Parameter LLMs
AI 简介
Orbit 是一个为万亿参数大规模语言模型设计的稳定且高效的强化学习后训练框架。其核心功能包括使用低精度基础和BF16适配器进行RL后训练,使得前沿规模的RL可以在单节点上运行。技术特点包括支持INT4、FP4、FP8和BF16等低精度格式,并通过冻结低精度基底并在小规模BF16 OFT或LoRA适配器上放置梯度来实现单节点万亿级模型训练。适合场景包括需要在资源受限环境下对超大规模语言模型进行高效强化学习调优的应用场合。
Python
Apache License 2.0137
Stars
8
Forks
2
Watchers
1
Issues
Star 增长
今日0
近 7 天+11
近 30 天+54
综合评分53.61
默认分支main