Unakar

Logic-RL

Unakar

Reproduce R1 Zero on Logic Puzzle

AI 简介

Logic-RL 是一个基于规则的强化学习项目,旨在提升大型语言模型在逻辑谜题上的推理能力。该项目通过引入一种新的强化学习方法,显著提高了模型在不同难度级别的逻辑问题上的表现,特别是在多步骤推理任务中展现出色的效果。技术上,它利用了PyTorch框架和VLLM库来实现高效的训练流程,并支持自定义数据集的预处理与使用。适用于需要增强AI系统逻辑推理能力的研究场景或开发环境,比如教育软件、智能辅助决策系统等。

Python
Apache License 2.0
2.5k
Stars
164
Forks
12
Watchers
13
Issues

Star 增长

今日+1
近 7 天+1
近 30 天+4
综合评分61.55
默认分支main