vra

Thinking-with-Visual-Primitives-pytorch

vra

Unofficial PyTorch reproduction of DeepSeek's Thinking with Visual Primitives.

AI 简介

该项目是对DeepSeek的Thinking with Visual Primitives的非官方PyTorch实现,旨在通过多阶段训练流程让多模态大语言模型学会使用边界框和点作为“思维单元”进行视觉推理。其核心功能包括预训练、专家微调以及在线策略蒸馏三个阶段,以结构化的方式输出嵌入坐标信息的思考过程。技术上采用了LoRA微调方法来验证整个流程的可行性。此项目适用于需要增强图像理解和交互能力的应用场景,如图像识别与定位等任务。

Python
MIT License
75
Stars
6
Forks
2
Watchers
0
Issues

Star 增长

今日0
近 7 天+4
近 30 天+4
综合评分44.94
默认分支main