
EffOPD
caiyuchen-ustc
Repository for EffOPD. We are working on polishing the details.
AI 简介
EffOPD 是一个用于改进和优化强化学习模型训练过程的项目。它基于 verl 和 GOPD 实现,主要通过修改 `ppo_trainer.yaml`、`fsdp_workers.py` 和 `ray_trainer.py` 等文件来实现功能增强。EffOPD 引入了迭代测试机制,允许用户在每次指数检查点时评估最多 5 个外推候选参数,并通过轻量级验证集进行即时验证,从而提高模型训练效率。该项目适合需要对大规模语言模型进行高效训练和优化的研究者及开发者使用。
Python
65
Stars
2
Forks
44
Watchers
0
Issues
Star 增长
今日0
近 7 天+12
近 30 天+21
综合评分46.53
默认分支main