agentic-grpo-longhorizon

qiqihezh

Fixing GRPO training collapse in long-horizon multi-tool agents. A lightweight PRM-Lite + LATA joint approach achieves +37% over vanilla GRPO on τ-bench airline (50-task, multi-turn).

AI 简介

该项目旨在解决长链路、多工具调用智能体在GRPO（Group Relative Policy Optimization）强化学习训练中出现的崩溃问题。通过提出PRM-Lite（轻量级过程奖励模型）与LATA（长度感知轮次优势）联合方案，有效缓解群组奖励饱和、训练集泄漏偏差和推理退化三大核心缺陷，在τ-bench airline基准（50任务、多轮多工具场景）上相较基线提升37%整体pass^1。技术特点包括基于规则的过程奖励注入、√L长度归一化优势计算，以及端到端可微训练流程。适用于需高可靠性、长决策链与多工具协同的AI智能体研发场景，如复杂服务编排、自动化客服与任务型对话系统。

Python

agentic-ai grpo long-horizon multi-turn-agents process-reward-model qwen reinforcement-learning tau-bench tool-calling

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+5

综合评分40.5

默认分支main

agentic-grpo-longhorizon

Star 增长

加入交流群