Open-Reasoner-Zero

Open-Reasoner-Zero

Open-Reasoner-Zero

Official Repo for Open-Reasoner-Zero

AI 简介

Open-Reasoner-Zero 是一个开源项目,专注于基于基础模型的大规模强化学习训练。该项目使用与DeepSeek-R1-Zero-Qwen-32B相同的基模型,在AIME2024、MATH500和GPQA Diamond等基准测试中表现出色,同时仅需十分之一的训练步骤,显著提高了效率。项目采用Python语言编写,其核心功能包括简化训练流程、提高可扩展性和易用性。适用于需要高效推理能力的研究者和开发者,尤其是在追求人工通用智能(AGI)的研究领域。通过公开源代码、参数设置、训练数据和模型权重,Open-Reasoner-Zero促进了更广泛的技术交流与合作。

Python
MIT License
2.1k
Stars
120
Forks
11
Watchers
19
Issues

Star 增长

今日0
近 7 天+3
近 30 天+4
综合评分40.15
默认分支main