VLM-R1

om-ai-lab

Solve Visual Understanding with Reinforced VLMs

AI 简介

VLM-R1 是一个基于强化学习（R1风格）训练的大型视觉语言模型，专注于提升视觉理解任务的稳定性与跨域泛化能力。其核心采用GRPO（Generalized Reinforcement Policy Optimization）算法对Qwen2.5-VL等多模态基础模型进行微调，在指代表达理解（REC）和开放词汇检测（OVD）等细粒度视觉定位任务上取得SOTA性能；支持全参数微调、LoRA、视觉模块冻结及多图输入等多种训练范式。项目适用于需要高鲁棒性视觉-语言对齐能力的研究与工业场景，如智能标注、具身推理、跨模态检索及开放集目标检测。

Python

Apache License 2.0

deepseek-r1 grpo llm multimodal multimodal-r1 qwen r1-zero reinforcement-learning vlm vlm-r1

在 GitHub 查看

Stars

383

Forks

Watchers

164

Issues

Star 增长

今日0

近 7 天0

近 30 天+11

综合评分64.85

默认分支main

VLM-R1

Star 增长

加入交流群