mll-lab-nu

RAGEN

mll-lab-nu

RAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.

AI 简介

RAGEN 是一个利用强化学习在交互式随机环境中训练推理代理的项目。其核心功能包括通过StarPO框架统一优化多轮次代理,支持轨迹级和回合级训练,并内置了10个环境如Sokoban、FrozenLake等,同时提供与Gym兼容的接口方便自定义环境添加。RAGEN特别强调对代理RL训练过程中的问题进行诊断及修正,有助于识别并解决隐藏的问题模式。此外,最新版本RAGEN-2引入了基于奖励方差的轻量级序列过滤技术SNR-Adaptive Filtering,进一步提高了训练稳定性。该项目适用于需要开发复杂决策逻辑或希望深入理解强化学习训练机制的研究者与开发者。

Python
MIT License
2.7k
Stars
226
Forks
23
Watchers
28
Issues

Star 增长

今日+6
近 7 天+18
近 30 天+41
综合评分84.17
默认分支main