VLM3

facebookresearch

Official implementation of paper "VLM³: Vision Language Models Are Native 3D Learners".

AI 简介

VLM³是一个无需修改模型结构或损失函数、仅通过数据缩放即可使标准视觉语言模型（VLM）具备强大多任务3D理解能力的方法。其核心特点是：统一采用文本作为输出域，通过归一化像素坐标与固定焦距预处理消除相机歧义，支持对象级3D理解、度量深度估计、像素级匹配和相机位姿估计四大任务。技术上依赖现有VLM架构与监督微调（SFT），不引入额外编码器、专用头或复杂数据增强。适用于需要轻量、可扩展3D感知能力的研究与工程场景，如机器人导航、AR/VR内容生成及多模态三维重建前期建模。

Jupyter Notebook

Other

3d-foundation-model camera-pose-estimation depth-estimation image-matching large-language-models object-level-3d vlms

在 GitHub 查看官方网站

383

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+23

综合评分45.64

默认分支main

VLM3

Star 增长

加入交流群