poetrywanderer

RL-Projects

poetrywanderer

This include experimental RL Projects on LLM, VLM & Generative tasks

AI 简介

该项目探索了在文本、多模态和生成任务中使用强化学习(RL)与蒸馏技术进行策略后训练的方法及其有效性边界。核心功能包括针对不同模态的任务,如文本推理、多模态几何推理和OCR文本渲染,采用GRPO、OPD及Flow-GRPO等方法显著提升了模型性能。项目展示了如何通过两阶段训练(先OPD后RL)达到最佳效果,并揭示了规模阈值、任务结构依赖性及算法技能泛化等关键发现。适用于需要增强大语言模型或视觉语言模型特定任务能力的研究者和开发者。

Python
102
Stars
0
Forks
52
Watchers
0
Issues

Star 增长

今日0
近 7 天+1
近 30 天+39
综合评分41.4
默认分支main