thinkwee

AwesomeOPD

thinkwee

Awesome List for On-Policy Distillation

AI 简介

AwesomeOPD 是一个汇总了使用在线策略蒸馏(On-Policy Distillation, OPD)和在线策略自蒸馏(On-Policy Self-Distillation, OPSD)技术训练大型语言模型(LLMs)、视觉语言模型(VLMs)、代理及草稿模型的开源库和论文的优秀列表。该项目详细介绍了OPD的核心概念,即学生模型在训练过程中生成自己的轨迹,并由教师模型对这些样本提供逐标记或序列级别的监督;而OPSD则是在特定条件下,教师与学生为同一模型时的应用场景。每个条目都根据四个设计维度进行注释:教师来源、监督信号类型、回放数据处理方式以及管道位置。这使得研究者能够快速定位到符合需求的方法。适用于需要提升现有模型性能、优化资源利用效率或探索新架构的研究场景。

609
Stars
11
Forks
7
Watchers
1
Issues

Star 增长

今日0
近 7 天+50
近 30 天+399
综合评分74.24
默认分支main