hustvl

Vim

hustvl

[ICML 2024] Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

AI 简介

Vision Mamba (Vim) 是一个基于双向状态空间模型的高效视觉表示学习框架。该项目通过引入位置嵌入和双向状态空间模型来压缩视觉表示,从而在不依赖自注意力机制的情况下实现高效的视觉数据处理。其核心功能包括在图像分类、目标检测和语义分割等任务上表现出色,并且在计算速度和内存使用方面优于现有的视觉变换器如DeiT。例如,在处理高分辨率图像时,Vim比DeiT快2.8倍,并节省了86.8%的GPU内存。适用于需要高性能和资源效率的计算机视觉应用场景,特别是在处理大规模或高分辨率图像数据集时。

Python
Apache License 2.0
3.9k
Stars
287
Forks
30
Watchers
108
Issues

Star 增长

今日+2
近 7 天+6
近 30 天+19
综合评分68.28
默认分支main