mitkox

Thinking-with-Visual-Primitives

mitkox

Clone of DeepSeek Thinking-with-Visual-Primitives

AI 简介

该项目是一个基于视觉基本元素进行思考的多模态大语言模型的克隆实现,旨在解决现有模型在处理复杂结构推理时面临的“参考鸿沟”问题。其核心功能在于通过将空间标记(如点和边界框)直接嵌入到推理过程中作为最小思维单元,使得抽象的语言概念能够与具体的物理坐标相锚定,从而实现更加精准的空间定位与逻辑推理。技术上,该模型采用了类似人类认知行为的方式,比如用手指计数或追踪迷宫路径,来提升视觉基础元素在推理中的作用。适用于需要高精度空间布局理解和操作的应用场景,例如物体识别、路径规划等。

Makefile
MIT License
133
Stars
108
Forks
104
Watchers
1
Issues

Star 增长

今日+4
近 7 天+10
近 30 天+29
综合评分62.01
默认分支main