OliverLeeXZ

SERL

OliverLeeXZ

Official implement on 'What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents'

AI 简介

SERL是一个针对文本型大语言模型代理的强化学习方案,它通过从代理-环境交互中收集多反馈来构建教师信号,并将该信号有选择性地应用于动作标记,同时保持链式思考和格式化标记在原始GRPO目标下。其核心技术特点包括基于多种反馈源(如即时反馈、下一观察、未来轨迹等)构建的后见之明信号、仅对动作标记进行蒸馏以及支持灵活的反馈粒度设置。此项目特别适用于需要长期规划与决策的任务场景,例如ALFWorld和WebShop这两个长时域代理环境中。通过提供简洁易用的训练脚本,SERL降低了研究者们探索复杂互动任务解决方案的门槛。

Python
Apache License 2.0
122
Stars
2
Forks
1
Watchers
1
Issues

Star 增长

今日0
近 7 天0
近 30 天+3
综合评分41.73
默认分支main