
TinyZero
Jiayi-Pan
Minimal reproduction of DeepSeek R1-Zero
AI 简介
TinyZero 是一个基于 DeepSeek R1-Zero 的极简复现项目,专注于倒计时和乘法任务。通过强化学习(RL),30亿参数的基础语言模型能够自主发展出自我验证和搜索能力。该项目使用 Python 编写,并基于 veRL 库构建,支持在单个或多个 GPU 上进行训练,对于 30 亿参数以上的模型,可以开发出复杂的推理技能。适合用于低成本(小于 30 美元)的实验环境来探索 AI 模型如何通过强化学习获得新能力的研究者与开发者。请注意,此仓库已不再积极维护,建议直接使用最新的 veRL 库进行 RL 实验。
Python
Apache License 2.013.2k
Stars
1.6k
Forks
124
Watchers
71
Issues
Star 增长
今日+9
近 7 天+27
近 30 天+52
综合评分106.3
默认分支main