Vim

hustvl

[ICML 2024] Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

AI 简介

Vision Mamba（Vim）是一个基于双向状态空间模型（SSM）的高效视觉表征学习骨干网络，旨在替代传统视觉Transformer实现更优的计算与内存效率。其核心采用位置嵌入增强的双向Mamba块，支持长序列建模，显著降低高分辨率图像处理的显存占用与推理延迟（如相比DeiT节省86.8% GPU显存、提速2.8倍）。项目已在ICML 2024发表，在ImageNet分类、COCO检测和ADE20k分割任务上达到或超越主流ViT性能。适用于资源受限场景下的高分辨率视觉理解、边缘部署及大规模视觉基础模型构建。

Python

Apache License 2.0

在 GitHub 查看

3.9k

Stars

287

Forks

Watchers

108

Issues

Star 增长

今日0

近 7 天0

近 30 天+4

综合评分59.78

默认分支main

Vim

Star 增长

加入交流群