D-ARL

YinqiBai962

暂无描述

AI 简介

D-ARL 是一个针对语言推理的分布匹配异步强化学习框架。该项目通过分布匹配重放、方差引导样本选择和多行为策略优化等核心技术，解决了传统异步强化学习中因行为策略过时而导致的数据分布不匹配问题，从而在保持训练速度的同时提高了算法的稳定性。适合用于大型语言模型（LLM）后训练阶段，特别是需要高效利用计算资源并保证训练过程稳定性的场景。基于 Python 开发，并构建于 verl 之上，提供了一系列易于运行的实验脚本。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+48

近 30 天+48

综合评分62.7

默认分支main