Ahren09

UniSD

Ahren09

Official implementation for "Towards a Unified Self-Distillation Framework for Large Language Models" (https://arxiv.org/abs/2605.06597).

AI 简介

UniSD是一个为大型语言模型设计的统一自蒸馏框架。该项目通过集成多种机制来解决监督可靠性、表示对齐和训练稳定性问题,包括多教师一致、EMA教师稳定、词元级对比学习、特征匹配和发散裁剪等技术特点。它适用于需要在没有更强外部教师的情况下适应或改进大型语言模型性能的场景,如自然语言处理任务中的模型压缩与加速。基于Python开发,并利用了PyTorch及Transformers库的支持,使得研究人员能够轻松复现论文中的实验结果并探索不同组件之间的相互作用。

Python
Apache License 2.0
110
Stars
0
Forks
2
Watchers
1
Issues

Star 增长

今日+1
近 7 天+1
近 30 天+52
默认分支main