Volt

YilmazKadir

Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding (ECCV 2026)

AI 简介

Volt 是一个面向3D场景理解的体素化Transformer模型，重新设计标准Transformer架构以直接处理三维体素数据。其核心是将输入3D场景划分为非重叠体素块，线性编码为token序列，经全局注意力Transformer编码后，通过转置卷积上采样并输出语义或实例分割结果。项目基于Pointcept框架实现，支持室内（如ScanNet）与自动驾驶（nuScenes、SemanticKITTI）等主流3D数据集，在语义分割、实例分割任务中具备端到端建模能力。适用于需要高精度3D结构感知的研究与应用，如机器人导航、自动驾驶环境解析和建筑信息建模。

Python

MIT License

3d-scene-understanding instance-segmentation semantic-segmentation transformers

在 GitHub 查看官方网站

186

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+7

综合评分43.82

默认分支main

Volt

Star 增长

加入交流群