EtaYang10th

DARE

EtaYang10th

DARE: Difficulty-Adaptive Reinforcement Learning with Co-Evolved Difficulty Estimation

AI 简介

DARE是一个面向大语言模型推理的难度自适应强化学习框架,它结合了策略对齐的难度估计与特定难度的训练策略。该项目的核心功能在于通过动态调整训练数据的难度来优化训练过程,从而提高训练效率、最终准确性和推理时的token使用效率。技术上,DARE采用Python实现,并且在多个数学推理基准测试中表现出色,相较于其他难度感知的RL方法,能够更快收敛并产生更优的结果。适用于需要高效训练大型语言模型以进行复杂推理任务或代码生成的应用场景。

Python
MIT License
79
Stars
10
Forks
2
Watchers
1
Issues

Star 增长

今日0
近 7 天+5
近 30 天+22
综合评分47.82
默认分支main