ZJU-REAL

SDAR

ZJU-REAL

Official code for "Self-Distilled Agentic Reinforcement Learning"

AI 简介

SDAR是一个自蒸馏代理强化学习方法。该项目通过引入自我蒸馏机制,显著提升了在ALFWorld、WebShop和Search-QA等环境中的性能,相比传统的强化学习基线有明显优势。其核心功能包括高效的策略优化和知识迁移能力,利用Python语言实现,并支持多种实验环境的快速部署与测试。适用于需要改进智能体决策效率及泛化能力的研究场景,尤其是在自然语言处理与复杂任务解决领域。

Python
Apache License 2.0
230
Stars
15
Forks
2
Watchers
1
Issues

Star 增长

今日+3
近 7 天+55
近 30 天+141
综合评分79.61
默认分支master