ailuntx

Thinking-with-Visual-Primitives

ailuntx

Archived snapshot of Thinking-with-Visual-Primitives

AI 简介

Thinking with Visual Primitives 是一个专注于提升多模态大语言模型在复杂结构推理能力的项目。它通过引入视觉原语来增强模型对密集空间布局的理解,从而解决自然语言描述中的模糊性问题。该项目采用的技术手段包括高分辨率裁剪和基于图像的思考方式,旨在弥补现有模型在感知与引用之间的差距。适合于需要进行精确视觉理解和空间推理的应用场景,如机器人导航、图像理解与生成等领域。

Makefile
MIT License
251
Stars
60
Forks
3
Watchers
0
Issues

Star 增长

今日+2
近 7 天+12
近 30 天+120
综合评分65.36
默认分支main