
EasyR1
hiyouga
EasyR1: An Efficient, Scalable, Multi-Modality RL Training Framework based on veRL
AI 简介
EasyR1是一个基于veRL的高效、可扩展的多模态强化学习训练框架。它支持多种语言和视觉-语言模型,包括Llama3、Qwen系列以及DeepSeek-R1等,并集成了GRPO、DAPO、Reinforce++等多种先进的强化学习算法。项目采用了HybirdEngine设计和vLLM的SPMD模式来提高训练效率与性能,同时支持无填充训练、LoRA训练等实用技巧。此外,EasyR1还提供了对特定格式的数据集的支持,并能通过Wandb、SwanLab、Mlflow或Tensorboard进行训练过程监控。该框架适用于需要快速迭代和优化大规模多模态模型的研究人员及开发者,在自然语言处理与计算机视觉交叉领域的应用尤为广泛。
Python
Apache License 2.05k
Stars
375
Forks
24
Watchers
47
Issues
Star 增长
今日0
近 7 天+16
近 30 天+57
综合评分73.43
默认分支main