verl

verl-project

verl/HybridFlow: A Flexible and Efficient RL Post-Training Framework

AI 简介

verl 是一个面向大语言模型（LLM）的强化学习（RL）后训练开源框架，专注于高效、灵活且可落地的 RLHF/RLAIF 训练流程。其核心支持多种 RL 算法（如 PPO、GRPO）的快速构建与扩展，通过 Hybrid-Controller 编程模型统一调度训练与推理阶段；深度集成主流 LLM 基础设施（FSDP、Megatron-LM、vLLM、SGLang 等），支持细粒度设备映射与 3D-HybridEngine 实现 Actor 模型动态重分片，显著降低通信开销与显存冗余。适用于需要在生产环境中规模化开展 LLM 对齐优化、偏好建模或基于反馈的持续精调等场景。

Python

Apache License 2.0

在 GitHub 查看官方网站

22.4k

Stars

4.2k

Forks

Watchers

1.3k

Issues

Star 增长

今日0

近 7 天0

近 30 天+249

综合评分80

默认分支main

verl

Star 增长

加入交流群