flow_grpo

yifan123

[NeurIPS 2025] An official implementation of Flow-GRPO: Training Flow Matching Models via Online RL

AI 简介

Flow-GRPO 是一个面向流匹配（Flow Matching）模型的在线强化学习训练框架，旨在通过策略优化提升生成质量与可控性。其核心结合了GRPO（Generalized Reinforcement Policy Optimization）算法与流匹配架构，支持多步噪声调度、奖励建模（如PickScore、CLIPScore、Geneval）、无CFG训练及快速变体Flow-GRPO-Fast。项目已适配SD3.5-M、FLUX.1、Wan2.1、Qwen-Image等主流扩散/多模态模型，并提供可视化分析与Hugging Face在线Demo。适用于图像生成、编辑、OCR引导生成等需细粒度语义对齐与奖励驱动优化的研究与工程场景。

Python

MIT License

在 GitHub 查看官方网站

2.4k

Stars

167

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+27

综合评分61.38

默认分支main

flow_grpo

Star 增长

加入交流群