
RTDMD
Harahan
[Arxiv 2026] This is the official PyTorch implementation of "RTDMD: Reinforcing Few-step Generators via Reward-Tilted Distribution Matching"
AI 简介
RTDMD是一个基于PyTorch实现的框架,旨在通过奖励倾斜分布匹配来增强少量步骤生成器。其核心功能包括通过最小化与奖励倾斜教师分布之间的KL散度来结合分布匹配蒸馏和奖励导向的强化学习。技术特点主要体现在Ambient-Consistent DMD(AC-DMD)用于冷启动阶段,以及在RL阶段采用混合策略梯度方法(SubGRPO加上最终步骤奖励反向传播)。该项目特别适合于需要高效且高质量生成结果的应用场景,例如图像生成、文本到图像转换等任务。
Python
Apache License 2.024
Stars
1
Forks
1
Watchers
1
Issues
Star 增长
今日+5
近 7 天+5
近 30 天+8
综合评分54.2
默认分支main