om-ai-lab

VLM-R1

om-ai-lab

Solve Visual Understanding with Reinforced VLMs

AI 简介

VLM-R1 是一个稳定且泛化的R1风格大规模视觉-语言模型,旨在通过强化学习提升视觉理解能力。该项目基于Qwen2.5-VL模型,采用R1和SFT方法进行训练,在领域内外数据上均表现出色,特别是在开放领域数据上的推理能力得到了显著增强。支持多种训练模式,包括全微调、冻结视觉模块、LoRA微调、多节点训练及多图像输入训练等,并提供了针对自定义数据集的解决方案。适用于需要高级视觉理解和跨模态交互的应用场景,如图像描述生成、视觉问答系统等。

Python
Apache License 2.0
6k
Stars
380
Forks
45
Watchers
164
Issues

Star 增长

今日0
近 7 天+3
近 30 天+15
综合评分56.74
默认分支main