T2PO

WillDreamer

【ICML2026 Spotlight】 T2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

AI 简介

T2PO是一个面向多轮智能体强化学习的探索控制框架，通过不确定性信号在token级和turn级动态调节探索行为，提升训练稳定性与样本效率。其核心特点是融合LLM推理能力与RL优化机制，利用边际不确定性检测与低进展回合重采样技术，解决多轮交互中重复无效动作、探索不足等问题。项目适用于需要长期规划与多步决策的智能体场景，如复杂任务导向的对话系统、网页交互代理（WebShop）、具身AI环境（ALFWorld）及开放域问答代理等。

Python

Apache License 2.0

agent llm rl

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+5

综合评分40.5

默认分支main

T2PO

Star 增长

加入交流群