
AutoRubric-as-Reward
OpenEnvision
Auto-Rubric as Reward: From Implicit Preference to Explicit Generative Criteria
AI 简介
Auto-Rubric as Reward 项目旨在将少量标记的视觉偏好示例转换为明确可检查的标准文本,进而通过冻结的视觉语言模型(VLM)判断这些标准以生成成对奖励。其核心功能包括从隐式偏好到显式生成标准的自动转换、基于这些标准进行验证和修订的过程以及使用这些标准为强化学习策略优化(RPO)提供奖励。技术特点涵盖自动生成且可复用的评估标准文件、支持文本到图像生成及图像编辑任务,并兼容OpenAI风格的本地或托管视觉端点。该项目适用于需要将人类偏好转化为机器可理解的生成规则的场景,如高质量图像生成与编辑等。
Python
Apache License 2.036
Stars
4
Forks
34
Watchers
1
Issues
Star 增长
今日0
近 7 天0
近 30 天+2
综合评分42.3
默认分支main