DiffusionOPD

ali-vilab

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

AI 简介

DiffusionOPD 是一个针对扩散模型中在线策略蒸馏的统一框架。该项目通过首先训练任务特定的教师模型，再将这些模型的能力蒸馏到一个统一的学生模型中，以实现多任务对齐。其核心技术特点包括解耦的多阶段训练、基于原则的扩散OPD目标函数、低方差及采样器兼容性。具体而言，它通过独立处理单任务探索并整合多种能力来减少奖励冲突和灾难性遗忘；同时，通过对连续扩散马尔可夫过程的扩展，提供了一个闭式每步KL目标函数，这不仅避免了PPO风格策略梯度中的额外得分函数噪声，还能自然地适应随机SDE采样器和确定性ODE采样器。该方法适用于需要高效训练和优化最终性能的各种场景，如美学评估、OCR识别以及生成评估等。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日+3

近 7 天+17

近 30 天+51

综合评分59.6

默认分支main