EasyR1

hiyouga

EasyR1: An Efficient, Scalable, Multi-Modality RL Training Framework based on veRL

AI 简介

EasyR1 是一个面向多模态大模型的高效、可扩展强化学习（RL）训练框架，基于 veRL 构建并增强对视觉语言模型（VLM）的支持。核心特性包括：集成 HybridEngine 和 vLLM SPMD 模式以提升训练吞吐；支持 Llama3、Qwen 系列（含 VL 版本）及 DeepSeek-R1 等主流模型；内置 GRPO、DAPO、RLOO、GSPO 等多种 RLHF 算法；支持 Padding-free 训练、LoRA 微调及多平台实验追踪。适用于大语言模型与视觉语言模型的偏好优化、对齐训练和策略微调等场景。

Python

Apache License 2.0

ai deepseek gpt llm nlp qwen reinforcement-learning rl

在 GitHub 查看官方网站

Stars

373

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+12

综合评分64.92

默认分支main

EasyR1

Star 增长

加入交流群