DenoiseRL

ALEX-nlp

DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

AI 简介

DenoiseRL 是一个基于强化学习的框架，旨在通过修正由弱模型产生的错误推理前缀来恢复正确的解决方案路径。其核心功能是利用结构化扰动（从弱模型的失败中导出）替代强教师模型的监督，使策略能够基于不正确的推理前缀进行训练，并在验证奖励下优化以纠正错误并达到正确答案。技术上，DenoiseRL 采用了类似于去噪自编码器的概念，将推理过程中的错误视为噪声，通过强化学习方法去除这些噪声。该项目适用于需要提高推理模型鲁棒性的场景，尤其是在缺乏高质量标注数据或强大教师模型的情况下，可以通过该方法有效提升模型性能。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+2

近 30 天+6

综合评分40.7

默认分支main