
simpleRL-reason
hkust-nlp
Simple RL training for reasoning
AI 简介
该项目旨在通过简单的强化学习方法提升模型的推理能力。其核心功能是基于规则奖励和GSM8K/Math数据集训练模型,无需复杂的设置即可实现显著的性能提升,适用于包括Llama3 8B、Mistral 7B/24B、DeepSeekMath 7B以及Qwen2.5系列在内的多种基础模型。技术特点在于使用有限的数据(约8000个样本)进行训练,使得不同模型在准确率上获得了10至超过20个百分点的增长,并且观察到了响应长度与准确性的同时增加。此项目特别适合需要快速增强语言模型数学解题能力和逻辑推理能力的研究者或开发者采用。
Python
MIT License3.9k
Stars
289
Forks
32
Watchers
34
Issues
Star 增长
今日0
近 7 天+3
近 30 天+12
综合评分62.09
默认分支v1