nanoRL

ethanhe42

暂无描述

AI 简介

nanoRL 是一个极简的强化学习微调框架，提供 SFT、DPO、GRPO 和 PPO 四种主流语言模型微调算法的单文件、可读性强的实现。每个实现仅 100–180 行 Python 代码，基于 Qwen2.5-0.5B-Instruct 模型，在玩具算术任务上 30 步内即可收敛，支持单 GPU 或 Apple Silicon（MPS）快速验证。项目突出算法差异：按监督信号强度（完整示范 → 偏好对 → 奖励函数）组织，清晰展示各方法所需的模型组件与损失设计。适用于教学理解、算法对比实验及轻量级 RLHF 原型开发。

Python

MIT License

在 GitHub 查看

128

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分3

默认分支main

nanoRL

Star 增长

加入交流群