RL-Projects

poetrywanderer

This include experimental RL Projects on LLM, VLM & Generative tasks

AI 简介

该项目系统性探索基于策略梯度的多模态大模型后训练方法，聚焦文本、多模态（图文）和扩散模型三类任务，采用GRPO、OPD及Flow-GRPO等强化学习与知识蒸馏结合的技术路径。核心特点包括：支持跨模态任务（text→text、image+text→text、text→image）、强调两阶段训练范式（先蒸馏再强化）、验证规模阈值效应与负迁移现象，并在Countdown、Geometry3K、OCR渲染等任务上显著提升性能。适用于研究大模型推理能力涌现、多模态对齐优化及生成式AI的策略微调场景。

Python

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分37

默认分支main

RL-Projects

Star 增长

加入交流群