
Skill1
AlphaLab-USTC
暂无描述
AI 简介
Skill1是一个通过强化学习统一进化技能增强代理的项目。它利用单一策略(Qwen2.5-7B)通过RL(GRPO)同时优化技能选择、利用和提炼三个核心功能,仅依赖于任务结果奖励信号进行信用分配。此方法避免了传统方法中因使用独立奖励信号而产生的冲突。适用于需要持续学习并积累可重用策略的场景,如复杂的环境交互任务。整个过程不需要额外的辅助模型或手动设计的奖励机制,实现了高效的技能管理和应用。
Python
Apache License 2.0145
Stars
7
Forks
1
Watchers
1
Issues
Star 增长
今日0
近 7 天+2
近 30 天+40
综合评分44.71
默认分支main