OpenRLHF

An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

AI 简介

OpenRLHF是一个基于Ray的易用、可扩展且高性能的代理强化学习框架。它集成了PPO、DAPO、REINFORCE++等先进算法，并支持视觉语言模型（VLM）和文本-图像合成（TIS），通过vLLM分布式架构实现高效的并行处理。该框架采用统一的基于代理的设计模式，能够灵活应对不同规模的任务需求。特别适用于需要从人类反馈中学习的大规模语言模型训练场景，如对话系统优化、游戏AI开发等领域。