AutoRubric-as-Reward

OpenEnvision

Auto-Rubric as Reward: From Implicit Preference to Explicit Generative Criteria

AI 简介

Auto-Rubric-as-Reward 是一个将隐式视觉偏好转化为可解释、可验证的显式多模态评分标准（rubric）并用于生成式奖励建模的框架。其核心功能包括：基于少量标注图像对自动生成结构化文本评阅标准，支持人工校验与修订；利用冻结的多模态大模型（VLM）依据该rubric对图像进行成对排序打分，输出适用于RPO（Reward-based Preference Optimization）的差异化奖励信号；同时兼容文生图（FLUX.1-dev LoRA）与图像编辑（Qwen-Image-Edit LoRA）两类任务。适用于需透明性、可审计性及领域专家参与的视觉生成对齐训练场景。

Python

Apache License 2.0

imageediting mllm reward rl rubric t2i

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分42.3

默认分支main

AutoRubric-as-Reward

Star 增长

加入交流群