qiqihezh

agentic-grpo-longhorizon

qiqihezh

Fixing GRPO training collapse in long-horizon multi-tool agents. A lightweight PRM-Lite + LATA joint approach achieves +37% over vanilla GRPO on τ-bench airline (50-task, multi-turn).

AI 简介

该项目旨在解决长链路多工具智能体中的 GRPO 训练崩溃问题。通过创新的 PRM-Lite + LATA 联合方案,在 τ-bench airline(50 任务、多轮对话)场景下,相比 Vanilla GRPO 基线实现了 37% 的整体 pass^1 提升。项目采用 Python 编写,并基于 PyTorch 和 CUDA 技术栈。该联合方案不仅提高了整体性能,还增强了泛化能力和推理深度,同时显著降低了错误率。适用于需要处理复杂多轮对话和多工具调用的任务,特别是在长链路、多工具环境下对智能体进行训练和优化时表现出色。

Python
74
Stars
5
Forks
60
Watchers
1
Issues

Star 增长

今日0
近 7 天+8
近 30 天+10
综合评分44.33
默认分支main