DMPO

OliverLeeXZ

[ICML 2026] Official implement on 'Beyond Mode Collapse: Distribution Matching for Diverse Reasoning'

AI 简介

DMPO 是一个面向多样化推理的分布匹配强化学习算法实现，旨在缓解大模型在策略优化中因反向KL散度导致的模式坍塌问题。其核心通过组级别前向KL近似，提升策略多样性，在NP难组合优化、数学推理等任务上实现9-12%相对性能提升；配套发布NP-MM-Bench视觉语言基准（含10个NP难任务双指标评估）及开源数据集。适用于需要高多样性解生成的推理型RL场景，如组合优化求解、多解路径规划与鲁棒数学推理训练。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分37.9

默认分支main

DMPO

Star 增长

加入交流群