DARE

EtaYang10th

DARE: Difficulty-Adaptive Reinforcement Learning with Co-Evolved Difficulty Estimation

AI 简介

DARE是一个面向大语言模型推理任务的难度自适应强化学习框架，通过协同演化的难度估计模块动态识别样本难度，并据此调整训练策略。其核心特点是将策略对齐的难度评估与难度分级的奖励建模、采样策略和梯度更新相结合，在数学推理和代码生成等复杂推理任务上提升训练收敛速度、最终准确率及推理时的token效率。项目适用于需要高效微调LLM以增强逻辑推理能力的研究与工程场景，尤其适合处理难度分布不均的长思维链（CoT）数据集。

Python

MIT License

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分43.12

默认分支main

DARE

Star 增长

加入交流群