vit-pytorch

lucidrains

Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch

AI 简介

这是一个基于PyTorch实现的视觉Transformer（ViT）及其多种变体的轻量级开源库，支持标准ViT及CaiT、LeViT、MobileViT、MaxViT、Masked Autoencoder等30余种主流视觉Transformer架构。项目提供简洁API、开箱即用的训练/推理接口，并兼容小数据集微调与自监督预训练任务。适用于图像分类、自监督学习、模型研究与教学实验等计算机视觉场景，强调可复现性与模块化设计。

Python

MIT License

artificial-intelligence attention-mechanism computer-vision image-classification transformers

在 GitHub 查看

25.4k

Stars

3.5k

Forks

154

Watchers

130

Issues

Star 增长

今日0

近 7 天0

近 30 天+48

综合评分74.8

默认分支main

vit-pytorch

Star 增长

加入交流群