OPD

thunlp

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

AI 简介

OPD 是一个面向大语言模型（LLM）在线策略蒸馏（On-Policy Distillation）的研究与实践项目，系统分析其训练失败机理并提出可复现的修复策略。核心贡献包括：揭示OPD成功依赖师生模型思维模式兼容性与教师能力增量两大条件；发现高概率token层面的渐进对齐机制；提出“离策略冷启动”和“教师对齐提示选择”两种实用恢复方法。项目适用于LLM后训练、知识蒸馏调优及教学式模型压缩等研究与工程场景，强调机制可解释性与策略可部署性。

Python

在 GitHub 查看

772

Stars

Forks

238

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+48

综合评分50.95

默认分支main

OPD

Star 增长

加入交流群