orbit

Sphere-AI-Lab

Stable and Efficient Reinforcement Learning for Trillion-Parameter LLMs

AI 简介

Orbit 是一个面向超大规模语言模型的轻量级强化学习后训练框架，专为万亿参数级大模型设计。它采用低精度基座（INT4/FP4/FP8）冻结+BF16适配器（OFT/LoRA）微调的架构，实现训练与推理精度一致，并支持在单节点8×B200 GPU上完成端到端RLHF。核心特点包括适配器优先的RL范式、原生低精度支持、PEFT原生集成及异步双缓冲适配器更新。适用于需在资源受限环境下对前沿万亿级LLM（如Kimi-K2.6、DeepSeek V4、Qwen3 MoE）进行稳定高效强化学习对齐的工业级部署场景。

Python

Apache License 2.0

cuda low-precision reinforcement-learning transformers

在 GitHub 查看官方网站

146

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分43.16

默认分支main

orbit

Star 增长

加入交流群