Relax

redai-infra

An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

AI 简介

Relax 是一个面向大规模多模态大模型后训练的异步强化学习引擎。它采用服务化六层架构，基于 Ray Serve 构建，通过 TransferQueue 实现训练与推理完全解耦，支持文本、图像、音频等全模态端到端 RL 微调；内置 GRPO、GSPO 等算法，集成 GenRM 判别模型，并兼容 Megatron-LM 与 SGLang 后端。适用于需要高弹性、低耦合、多轮交互式闭环训练的多模态大模型对齐与优化场景。

Python

Apache License 2.0

在 GitHub 查看官方网站

462

Stars

Forks

343

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+21

综合评分47.41

默认分支main

Relax

Star 增长

加入交流群