yedaotian9

Lite-OPD

yedaotian9

暂无描述

AI 简介

Lite-OPD 是一个专为研究设计的在线策略蒸馏训练框架。其核心功能包括通过KL散度损失让生成实时rollout的学生模型学习教师模型的分布,支持多种模型(如Qwen2.5、Qwen3等)和不同类型的损失函数(前向KL、反向KL、JSD)。该项目采用单进程同步架构,消除了多进程通信开销,并以最少的抽象层次确保了代码的可修改性和维护性,适合需要深度定制训练循环的研究工作流。此外,它对硬件要求较低,仅需单个GPU即可运行整个在线策略蒸馏流程,非常适合资源受限的研究环境。

Python
MIT License
36
Stars
1
Forks
34
Watchers
0
Issues

Star 增长

今日+1
近 7 天+2
近 30 天+2
综合评分41.1
默认分支main