Flash-GRPO

Shredded-Pork

[ICML 2026] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

AI 简介

Flash-GRPO 是一种面向视频扩散模型对齐优化的单步策略训练框架，旨在低算力预算下高效提升生成结果与文本提示的一致性。其核心技术包括等时序分组（iso-temporal grouping）以消除时间步混淆偏差，以及时序梯度校正（temporal gradient rectification）来平衡各时间步梯度幅值，从而在1.3B–14B参数模型上实现训练加速与对齐质量的双重提升。适用于计算资源受限的视频生成模型微调、多模态对齐优化及基于奖励建模的强化学习训练场景。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分39.4

默认分支main

Flash-GRPO

Star 增长

加入交流群