Logic-RL

Unakar

Reproduce R1 Zero on Logic Puzzle

AI 简介

Logic-RL 是一个面向逻辑推理任务的规则引导型强化学习微调框架，旨在提升大语言模型在多步逻辑谜题（如数独、逻辑网格等）上的准确率与泛化能力。项目基于规则定义可解释的奖励函数，结合GRPO等策略优化算法，在保持推理链长度可控的同时显著提升复杂度递增的逻辑题求解性能（如8人逻辑题准确率达67%）。技术上融合规则建模、RLHF流程与vLLM推理加速，支持指令微调与奖励建模模块化扩展。适用于需要高可靠性、可验证推理路径的AI辅助教育、形式化验证预训练及逻辑能力评估场景。

Python

Apache License 2.0

在 GitHub 查看

2.5k

Stars

163

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分58.64

默认分支main

Logic-RL

Star 增长

加入交流群