simpleRL-reason

hkust-nlp

Simple RL training for reasoning

AI 简介

这是一个面向大语言模型推理能力提升的轻量级强化学习训练框架。项目采用基于规则的奖励函数和GSM8K等数学推理数据集，支持从零开始（zero RL）或在基础模型上微调，仅需约8K样本即可显著提升模型在数学推理任务上的准确率（+10~20个百分点）。技术特点包括简化PPO流程、无需监督微调（SFT）预热、兼容多种开源基座模型（如Llama3、Mistral、Qwen2.5系列），并提供训练分析工具与公开模型检查点。适用于希望低成本、快速增强模型数学/逻辑推理能力的研究者与开发者，尤其适合资源受限场景下的推理对齐研究。

Python

MIT License

在 GitHub 查看

3.9k

Stars

286

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分59.37

默认分支v1

simpleRL-reason

Star 增长

加入交流群