OliverLeeXZ

DMPO

OliverLeeXZ

[ICML 2026] Official implement on 'Beyond Mode Collapse: Distribution Matching for Diverse Reasoning'

AI 简介

该项目旨在解决强化学习中的模式坍塌问题,提出了一种名为DMPO的新算法。该算法通过在群体层面近似前向KL散度最小化,有效提升了优化任务的表现,相对改进达到9-12%。项目还引入了MM-NP-Bench基准测试,包含10个NP难问题的视觉表示,并采用双指标评估(成功率和质量比),以更全面地衡量模型性能。此外,提供了包括参数生成器、基于规则的验证器及启发式求解器在内的完整基础设施。适用于需要多样化推理能力的场景,如复杂的优化任务、数学推理以及跨领域任务等。项目使用Python编写,已集成至verl框架中。

Python
105
Stars
2
Forks
3
Watchers
6
Issues

Star 增长

今日0
近 7 天0
近 30 天+2
综合评分38.63
默认分支main