WillDreamer

T2PO

WillDreamer

【ICML2026 Spotlight】 T2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

AI 简介

T2PO 是一个针对多轮次代理强化学习(Agentic RL)中探索控制问题的解决方案。该项目通过在令牌和回合级别上利用不确定性信号来指导探索,从而提高训练过程中的稳定性和样本效率。其核心技术特点包括:在令牌层面跟踪边缘不确定性并在低于阈值时触发干预;在回合层面重新采样那些探索进展微乎其微的回合,避免无效更新。T2PO 适用于需要高效稳定训练大型语言模型作为代理执行复杂任务的场景,如基于文本的游戏、对话系统等。项目采用 Python 编写,并已在 WebShop、ALFWorld 和 SearchQA 等多个基准测试中展现出显著优势。

Python
Apache License 2.0
36
Stars
0
Forks
29
Watchers
1
Issues

Star 增长

今日0
近 7 天+4
近 30 天+5
综合评分42.5
默认分支main