hands-on-modern-rl

walkinglabs

🚀 An open-source, hands-on curriculum bridging the gap from basic RL concepts to LLM alignment, RLVR, and advanced Agentic systems.

AI 简介

这是一套面向实践的现代强化学习课程，系统覆盖从经典控制任务到大语言模型对齐（LLM Alignment）、RLVR及多模态智能体构建的完整技术路径。核心功能包括PPO/DPO/GRPO等算法的逐行代码实现、RLHF全流程解析、训练指标可视化诊断、工具调用型Agentic RL项目实战，以及VLM与具身智能等前沿方向延伸。课程以PyTorch为框架，强调公式到可运行代码的落地，适合AI研究人员、工程师及希望深入掌握LLM后训练与智能体系统开发的学习者使用。

Python

Other

agent agentic agentic-ai agentic-rl dpo grpo llm llm-alignment pytorch reinforcemen rlhf tutorial

在 GitHub 查看官方网站

3.2k

Stars

229

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+119

综合评分69.09

默认分支main

hands-on-modern-rl

Star 增长

加入交流群