
OPD
thunlp
Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
AI 简介
该项目旨在重新思考大规模语言模型的在线策略蒸馏(OPD),探究其现象学、机制并提出实践方法。核心功能包括系统地分析OPD训练动态和机制,识别影响OPD成功与否的关键条件,并提出两种恢复失败OPD的实际策略:离线冷启动与教师对齐提示选择。技术上采用Python实现,适合于需要优化或改进大型语言模型性能的场景,尤其是在模型压缩与知识转移领域。
Python
637
Stars
35
Forks
238
Watchers
2
Issues
Star 增长
今日0
近 7 天+65
近 30 天+309
综合评分75.67
默认分支main