
ROPD_official
Peregrine123
暂无描述
AI 简介
ROPD是一个基于规则的在线策略蒸馏框架,用于大规模黑盒语言模型的蒸馏。其核心功能在于通过将教师和学生模型的行为差异转化为特定提示的语义规则来指导学生模型的学习过程,而无需访问教师模型的token级logits,从而实现黑盒条件下的知识迁移。技术上,ROPD利用Rubricator生成针对每个输入提示的具体规则,并通过Verifier评估学生模型输出与这些规则的符合程度,以此作为优化学生策略的奖励信号。这种设计特别适用于需要在不直接访问复杂或专有教师模型内部细节的情况下进行知识传递的情景,如跨架构模型训练或商业环境中对前沿模型能力的复制。
Python
Apache License 2.052
Stars
4
Forks
40
Watchers
0
Issues
Star 增长
今日+2
近 7 天+10
近 30 天+12
综合评分49.3
默认分支main