Shredded-Pork

Flash-GRPO

Shredded-Pork

[ICML 2026] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

AI 简介

Flash-GRPO 是一个针对视频扩散模型的单步策略优化框架,旨在提高对齐质量和训练效率。该项目通过引入等时分组和时间梯度校正技术,有效解决了时间步长带来的方差问题,并在低计算成本下实现了比全轨迹训练更好的效果。Flash-GRPO 适用于需要高效训练大规模视频生成模型的场景,特别是在计算资源有限的情况下。实验结果表明,该方法在1.3B到14B参数规模的模型上均表现出色,显著加速了训练过程同时保持了良好的稳定性和最先进的对齐质量。

Python
49
Stars
4
Forks
1
Watchers
3
Issues

Star 增长

今日0
近 7 天+3
近 30 天+5
综合评分41.1
默认分支main