YoungZ365

SOD

YoungZ365

PyTorch-based open-source code for paper "SOD: Step-wise On-policy Distillation for Small Language Model Agents"

AI 简介

SOD是一个基于PyTorch的开源项目,旨在通过逐步在线策略蒸馏(Step-wise On-policy Distillation)来优化小型语言模型代理的表现。其核心功能包括引入自适应步级加权机制,能够抑制学生模型在与教师模型偏差较大时的蒸馏损失,同时在学生模型恢复对齐时恢复全监督,并保持良好对齐步骤上的密集令牌级别指导。这一过程几乎不增加额外的计算成本。SOD特别适用于需要高精度推理能力的小型语言模型场景中,如数学、科学及编程等复杂任务领域。实验表明,在多个基准测试上,SOD相比其他方法有显著性能提升。

Python
Apache License 2.0
141
Stars
9
Forks
3
Watchers
4
Issues

Star 增长

今日0
近 7 天+4
近 30 天+34
综合评分48.4
默认分支main