
nanoRL
ethanhe42
暂无描述
AI 简介
nanoRL 是一个极简的单文件实现项目,专注于四种常见的语言模型微调方法:监督式下一句预测(SFT)、直接偏好优化(DPO)、组相对策略优化(GRPO)和近端策略优化(PPO)。每个算法都在一个约100-180行代码的独立文件中实现,并能在简单的算术任务上使用单个GPU或M系列Mac通过MPS在30步内收敛。这些算法根据所需的监督类型不同而有所区别,从需要完整示例的SFT到仅需奖励信号的PPO。该项目特别适合于希望深入了解这几种微调技术及其如何处理不同程度监督信息的研究人员或开发者。
Python
MIT License 最后更新 2026年6月1日活跃117
Stars
6
Forks
1
Watchers
0
Issues
Star 增长
今日+1
近 7 天+18
近 30 天+26
综合评分53.14
默认分支main