OpenRLHF

OpenRLHF

OpenRLHF

An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

AI 简介

OpenRLHF是一个基于Ray的易用、可扩展且高性能的代理强化学习框架。它集成了PPO、DAPO、REINFORCE++等先进算法,并支持视觉语言模型(VLM)和文本-图像合成(TIS),通过vLLM分布式架构实现高效的并行处理。该框架采用统一的基于代理的设计模式,能够灵活应对不同规模的任务需求。特别适用于需要从人类反馈中学习的大规模语言模型训练场景,如对话系统优化、游戏AI开发等领域。

Python
Apache License 2.0
9.6k
Stars
967
Forks
52
Watchers
297
Issues

Star 增长

今日0
近 7 天+31
近 30 天+126
综合评分90.46
默认分支main