facebookresearch

VLM3

facebookresearch

Official implementation of paper "VLM³: Vision Language Models Are Native 3D Learners".

AI 简介

VLM³项目展示了标准视觉语言模型(VLMs)作为原生3D学习者的能力。它通过简单的数据处理和无需改变模型架构或损失函数,使标准VLMs在多个3D任务上达到甚至超越当前最先进水平,包括对象级3D理解、深度估计、像素对应关系估计及相机姿态估计。该项目的核心技术特点在于其能够利用统一的输出域(文本)和大规模数据训练来实现高效3D学习,而无需复杂的模型设计、特定任务架构、复杂的数据增强或特定损失函数。VLM³适用于需要快速开发且具有良好扩展性的3D视觉应用场景,如机器人导航、虚拟现实环境构建等,极大地简化了3D学习流程。

Jupyter Notebook
Other
274
Stars
9
Forks
7
Watchers
1
Issues

Star 增长

今日+51
近 7 天+75
近 30 天+144
综合评分93
默认分支main