YilmazKadir

Volt

YilmazKadir

Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding

AI 简介

Volume Transformer (Volt) 是一个专注于3D场景理解的项目,通过改进传统的Transformer架构来处理三维数据。其核心功能是将输入的3D场景分割为非重叠的体积块,并使用线性编码器将每个块转换为标记序列,再由具有全局注意力机制的Transformer编码器进行处理。之后,通过反卷积操作将潜在标记上采样回体素分辨率,并最终映射到语义预测结果。该项目适用于需要高精度3D实例分割和语义分割的应用场景,如自动驾驶、机器人导航等。基于Python开发,并集成了来自Pointcept与SGIFormer项目的组件以增强其性能。

Python
MIT License
156
Stars
5
Forks
8
Watchers
1
Issues

Star 增长

今日+1
近 7 天+2
近 30 天+22
综合评分47.53
默认分支main