hongruhou89

ProRL

hongruhou89

ICML 2026: "ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation"

AI 简介

ProRL 是一个用于主动推荐的框架,它结合了语义ID项目表示与强化学习技术。该项目的核心功能包括通过联合优化兴趣提升(IoI)、排名提升(IoR)和点击率(CTR)等多个目标来生成逐步引导用户至目标项目的物品轨迹。技术特点方面,ProRL 采用了修正策略梯度估计方法确保稳定训练,并利用KL散度正则化向预训练参考策略靠拢;同时支持分布式多GPU训练以加速模型训练过程。此外,项目使用了语义ID标记化技术,将项目表示为从学习到的码本中选取的短代码。ProRL 适用于需要根据用户行为动态调整推荐内容,从而提高特定项目被访问或购买概率的各种在线推荐场景。

Python
44
Stars
2
Forks
36
Watchers
1
Issues

Star 增长

今日0
近 7 天+2
近 30 天+8
综合评分40.23
默认分支main