slime-n

A Multi-Policy, Multi-Agent RL Training Framework

AI 简介

slime<sup>n</sup> 是一个支持多策略、多智能体的强化学习训练框架。其核心功能包括可自由组合的组件，如可训练的策略对、独立的Megatron演员和独立的SGLang引擎，这些组件可以灵活地组装以适应不同的训练和推理需求。技术特点上，slime<sup>n</sup> 采用模块化设计，使得从单策略到多策略（甚至超过100个）的扩展变得简单且无需针对每种设置进行定制化开发。该框架适用于需要执行异构PPO、在线蒸馏、以及协作式多智能体系统等复杂任务的场景，特别是在研究与开发涉及多种角色或策略交互的强化学习应用时尤为适用。