ProRL

hongruhou89

ICML 2026: "ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation"

AI 简介

ProRL 是一个面向主动推荐（Proactive Recommendation）的强化学习框架，旨在通过生成引导性物品序列，逐步提升用户对目标物品的兴趣与排序。其核心技术包括基于语义-ID的物品编码、多目标奖励设计（IoI/IoR/CTR）、带KL正则的修正策略梯度（Rectified Policy Gradient）以稳定训练，以及基于 🤗 Accelerate 的分布式多GPU训练支持。项目适用于需长期用户行为建模与目标导向推荐的场景，如电商导流、内容平台兴趣孵化、教育路径推荐等，尤其适合需平衡短期点击与长期转化目标的推荐系统研究与落地。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+1

综合评分1.43

默认分支main

ProRL

Star 增长

加入交流群