ROPD_official

Peregrine123

暂无描述

AI 简介

ROPD 是一个基于评分标准的在线策略蒸馏框架，用于在黑盒教师模型条件下高效蒸馏大语言模型。其核心是通过对比教师与学生响应生成提示特定的语义评分标准（rubric），再由验证器对学生输出进行结构化打分，作为 GRPO 式策略优化的奖励信号；技术上摆脱了对教师 token logits 的依赖，仅需文本级教师响应，支持异构架构间蒸馏。适用于无法获取教师模型内部状态的场景，如商用闭源大模型的知识迁移、私有模型轻量化部署及合规性敏感的模型压缩任务。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+7

综合评分40.41

默认分支main

ROPD_official

Star 增长

加入交流群