[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-72818":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":16,"stars7d":17,"stars30d":18,"stars90d":15,"forks30d":15,"starsTrendScore":19,"compositeScore":20,"rankGlobal":9,"rankLanguage":9,"license":21,"archived":22,"fork":22,"defaultBranch":23,"hasWiki":22,"hasPages":22,"topics":24,"createdAt":9,"pushedAt":9,"updatedAt":25,"readmeContent":26,"aiSummary":27,"trendingCount":15,"starSnapshotCount":15,"syncStatus":28,"lastSyncTime":29,"discoverSource":30},72818,"dinov2","facebookresearch\u002Fdinov2","facebookresearch","PyTorch code and models for the DINOv2 self-supervised learning method.",null,"Jupyter Notebook",12969,1232,100,260,0,21,57,142,63,44.27,"Apache License 2.0",false,"main",[],"2026-06-12 02:03:08",":new: [2025-12-18] *Added support for loading XRay-DINO backbone following [Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.01469), more details are [here](#pretrained-backbone-xray-dino)*\n\n:new: [2025-12-16] *Added Channel-Adaptive DINO code following [Scaling Channel-Adaptive Self-Supervised Learning](https:\u002F\u002Fopenreview.net\u002Fforum?id=pT8sgtRVAf), more details are [here](#dinov2-for-biology)*\n\n:new: [2025-12-16] *Added Cell-DINO code following [Cell-DINO: Self-Supervised Image-based Embeddings for Cell Fluorescent Microscopy](to appear in Plos One Computational Biology), more details are [here](#dinov2-for-biology)*\n\n[2025-08-14] *Please check out the more recent [DINOv3](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov3) effort continuing this line of work.*\n\n[2025-06-11] *Added dino.txt inference code, following [DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16334).*\n\n[2023-10-26] *Added DINOv2 backbones with registers, following [Vision Transformers Need Registers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16588).*\n\n# DINOv2: Learning Robust Visual Features without Supervision\n\n**[Meta AI Research, FAIR](https:\u002F\u002Fai.facebook.com\u002Fresearch\u002F)**\n\nMaxime Oquab,\nTimothée Darcet,\nThéo Moutakanni,\nHuy V. Vo,\nMarc Szafraniec,\nVasil Khalidov,\nPatrick Labatut,\nArmand Joulin,\nPiotr Bojanowski\n\n[[`Paper #1`](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07193)] [`Paper #2`](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16588)] [[`Blog`](https:\u002F\u002Fai.facebook.com\u002Fblog\u002Fdino-v2-computer-vision-self-supervised-learning\u002F)] [[`Demo`](https:\u002F\u002Fdinov2.metademolab.com)] [[`BibTeX`](#citing-dinov2)]\n\nPyTorch implementation and pretrained models for DINOv2. For details, see the papers: **[DINOv2: Learning Robust Visual Features without Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07193)** and **[Vision Transformers Need Registers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16588)**.\n\nDINOv2 models produce high-performance visual features that can be directly employed with classifiers as simple as linear layers on a variety of computer vision tasks; these visual features are robust and perform well across domains without any requirement for fine-tuning. The models were pretrained on a dataset of 142 M images without using any labels or annotations.\n\nhttps:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\u002Fassets\u002F60359573\u002Ff168823e-7922-415a-b429-578badf5c356\n\n\u003Cdiv align=\"center\">\n  Visualization of the three first principal components of the patch features of all frames, mapped to RGB values.\n\u003C\u002Fdiv>\n\n## Pretrained models\n\n\u003Ctable style=\"margin: auto\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>model\u003C\u002Fth>\n      \u003Cth># of\u003Cbr \u002F>params\u003C\u002Fth>\n      \u003Cth>with\u003Cbr \u002F>registers\u003C\u002Fth>\n      \u003Cth>ImageNet\u003Cbr \u002F>k-NN\u003C\u002Fth>\n      \u003Cth>ImageNet\u003Cbr \u002F>linear\u003C\u002Fth>\n      \u003Cth>download\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">21 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">79.0%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">81.1%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">21 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">79.1%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">80.9%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_reg4_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">86 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">82.1%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">84.5%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">86 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">82.0%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">84.6%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_reg4_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">300 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">83.5%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">86.3%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"right\">300 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">83.8%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">86.7%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd align=\"right\">1,100 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">83.5%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">86.5%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd align=\"right\">1,100 M\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd align=\"right\">83.7%\u003C\u002Ftd>\n      \u003Ctd align=\"right\">87.1%\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_reg4_pretrain.pth\">backbone only\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Pretrained backbones (via PyTorch Hub)\n\nPlease follow the instructions [here](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) to install PyTorch (the only required dependency for loading the model). Installing PyTorch with CUDA support is strongly recommended.\n\nA corresponding [model card](MODEL_CARD.md) is included in the repository.\n\n```python\nimport torch\n\n# DINOv2\ndinov2_vits14 = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vits14')\ndinov2_vitb14 = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitb14')\ndinov2_vitl14 = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitl14')\ndinov2_vitg14 = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitg14')\n\n# DINOv2 with registers\ndinov2_vits14_reg = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vits14_reg')\ndinov2_vitb14_reg = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitb14_reg')\ndinov2_vitl14_reg = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitl14_reg')\ndinov2_vitg14_reg = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitg14_reg')\n```\n\n### Pretrained backbone: XRay-DINO\n\nRequest for downloading the model is here:\n\nhttps:\u002F\u002Fai.meta.com\u002Fresources\u002Fmodels-and-libraries\u002Fraydino-downloads\u002F\n\n\nAfter filling the form, you will get an email with a temporary link. You can either download it using `wget` and indicate the checkpoint path in your local filesystem, or you can directly use the URL from the email in the following code:\n\n```python\nimport torch\n\nREPO_DIR = \u003CPATH\u002FTO\u002FA\u002FLOCAL\u002FDIRECTORY\u002FWHERE\u002FTHE\u002FDINOV2\u002FREPO\u002FWAS\u002FCLONED>\n\nxray_dino_vitl16 = torch.hub.load(REPO_DIR, 'xray_dino_vitl16', source='local', weights=\u003CCHECKPOINT\u002FURL\u002FOR\u002FPATH>)\n```\n\n**License**\nModel weights are released under the FAIR Noncommercial Research License. See LICENSE_XRAY_DINO_MODEL for additional details.\n\n\n### Pretrained heads - Image classification\n\n\u003Ctable style=\"margin: auto\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">backbone\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">with\u003Cbr \u002F>registers\u003C\u002Fth>\n      \u003Cth>download\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>ImageNet\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_linear4_head.pth\">4 layers\u003C\u002Fa>)\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_reg4_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_reg4_linear4_head.pth\">4 layers\u003C\u002Fa>)\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_reg4_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_reg4_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd>\n        linear head (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_lreg4_inear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_reg4_linear4_head.pth\">4 layers\u003C\u002Fa>)\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\nThe (full) classifier models can be loaded via PyTorch Hub:\n\n```python\nimport torch\n\n# DINOv2\ndinov2_vits14_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vits14_lc')\ndinov2_vitb14_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitb14_lc')\ndinov2_vitl14_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitl14_lc')\ndinov2_vitg14_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitg14_lc')\n\n# DINOv2 with registers\ndinov2_vits14_reg_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vits14_reg_lc')\ndinov2_vitb14_reg_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitb14_reg_lc')\ndinov2_vitl14_reg_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitl14_reg_lc')\ndinov2_vitg14_reg_lc = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitg14_reg_lc')\n```\n\n### Pretrained heads - Depth estimation\n\n\u003Ctable style=\"margin: auto\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">backbone\u003C\u002Fth>\n      \u003Cth colspan=\"2\">download head\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>NYUd\u003C\u002Fth>\n      \u003Cth>KITTI\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_nyu_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_nyu_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_nyu_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_kitti_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_kitti_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_kitti_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_nyu_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_nyu_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_kitti_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_kitti_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_kitti_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_nyu_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_nyu_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_kitti_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_kitti_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_kitti_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_nyu_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_nyu_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        linear (\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_kitti_linear_head.pth\">1 layer\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_kitti_linear4_head.pth\">4 layers\u003C\u002Fa>),\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_kitti_dpt_head.pth\">DPT\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Pretrained heads - Semantic segmentation\n\n\u003Ctable style=\"margin: auto\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">backbone\u003C\u002Fth>\n      \u003Cth>download model\u003C\u002Fth>\n      \u003Cth colspan=\"2\">download head\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>ADE20K\u003C\u002Fth>\n      \u003Cth>ADE20K\u003C\u002Fth>\n      \u003Cth>VOC2012\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_ade20k_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_ade20k_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_voc2012_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_voc2012_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_ade20k_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_ade20k_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_voc2012_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_voc2012_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_ade20k_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_ade20k_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_voc2012_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_voc2012_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_ade20k_m2f.pth\">Mask2Former\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_ade20k_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_ade20k_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_voc2012_linear_head.pth\">linear\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_voc2012_ms_head.pth\">multi-scale\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n### Pretrained heads - Zero-shot tasks with dino.txt\n\n\u003Ctable style=\"margin: auto\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">backbone\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">with\u003Cbr \u002F>registers\u003C\u002Fth>\n      \u003Cth>download\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n      \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_dinotxt_tet1280d20h24l_vision_head.pth\">vision head\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_dinotxt_tet1280d20h24l_text_encoder.pth\">text model\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fthirdparty\u002Fbpe_simple_vocab_16e6.txt.gz\">vocabulary\u003C\u002Fa>,\n        \u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fthirdparty\u002FLICENSE\">vocabulary license\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\nThe (full) dino.txt model can be loaded via PyTorch Hub:\n\n```python\nimport torch\n\n# DINOv2\ndinov2_vitl14_reg4_dinotxt_tet1280d20h24l = torch.hub.load('facebookresearch\u002Fdinov2', 'dinov2_vitl14_reg4_dinotxt_tet1280d20h24l')\n```\n\n\n## Installation\n\nThe training and evaluation code requires PyTorch 2.0 and [xFormers](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fxformers) 0.0.18 as well as a number of other 3rd party packages. Note that the code has only been tested with the specified versions and also expects a Linux environment. To setup all the required dependencies for training and evaluation, please follow the instructions below:\n\n*[conda](https:\u002F\u002Fdocs.conda.io\u002Fprojects\u002Fconda\u002Fen\u002Flatest\u002Fuser-guide\u002Fgetting-started.html)* **(Recommended)** - Clone the repository and then create and activate a `dinov2` conda environment using the provided environment definition:\n\n```shell\nconda env create -f conda.yaml\nconda activate dinov2\n```\n\n*[pip](https:\u002F\u002Fpip.pypa.io\u002Fen\u002Fstable\u002Fgetting-started\u002F)* - Clone the repository and then use the provided `requirements.txt` to install the dependencies:\n\n```shell\npip install -r requirements.txt\n```\n\nFor dense tasks (depth estimation and semantic segmentation), there are additional dependencies (specific versions of `mmcv` and `mmsegmentation`) which are captured in the `extras` dependency specifications:\n\n*[conda](https:\u002F\u002Fdocs.conda.io\u002Fprojects\u002Fconda\u002Fen\u002Flatest\u002Fuser-guide\u002Fgetting-started.html)* **(Recommended)**:\n\n```shell\nconda env create -f conda-extras.yaml\nconda activate dinov2-extras\n```\n\n*[pip](https:\u002F\u002Fpip.pypa.io\u002Fen\u002Fstable\u002Fgetting-started\u002F)*:\n\n```shell\npip install -r requirements.txt -r requirements-extras.txt\n```\n\n## Data preparation\n\n### ImageNet-1k\n\nThe root directory of the dataset should hold the following contents:\n\n- `\u003CROOT>\u002Ftest\u002FILSVRC2012_test_00000001.JPEG`\n- `\u003CROOT>\u002Ftest\u002F[..]`\n- `\u003CROOT>\u002Ftest\u002FILSVRC2012_test_00100000.JPEG`\n- `\u003CROOT>\u002Ftrain\u002Fn01440764\u002Fn01440764_10026.JPEG`\n- `\u003CROOT>\u002Ftrain\u002F[...]`\n- `\u003CROOT>\u002Ftrain\u002Fn15075141\u002Fn15075141_9993.JPEG`\n- `\u003CROOT>\u002Fval\u002Fn01440764\u002FILSVRC2012_val_00000293.JPEG`\n- `\u003CROOT>\u002Fval\u002F[...]`\n- `\u003CROOT>\u002Fval\u002Fn15075141\u002FILSVRC2012_val_00049174.JPEG`\n- `\u003CROOT>\u002Flabels.txt`\n\nThe provided dataset implementation expects a few additional metadata files to be present under the extra directory:\n\n- `\u003CEXTRA>\u002Fclass-ids-TRAIN.npy`\n- `\u003CEXTRA>\u002Fclass-ids-VAL.npy`\n- `\u003CEXTRA>\u002Fclass-names-TRAIN.npy`\n- `\u003CEXTRA>\u002Fclass-names-VAL.npy`\n- `\u003CEXTRA>\u002Fentries-TEST.npy`\n- `\u003CEXTRA>\u002Fentries-TRAIN.npy`\n- `\u003CEXTRA>\u002Fentries-VAL.npy`\n\nThese metadata files can be generated (once) with the following lines of Python code:\n\n```python\nfrom dinov2.data.datasets import ImageNet\n\nfor split in ImageNet.Split:\n    dataset = ImageNet(split=split, root=\"\u003CROOT>\", extra=\"\u003CEXTRA>\")\n    dataset.dump_extra()\n```\n\nNote that the root and extra directories do not have to be distinct directories.\n\n### ImageNet-22k\n\nPlease adapt the [dataset class](dinov2\u002Fdata\u002Fdatasets\u002Fimage_net_22k.py) to match your local setup.\n\n\u003Cbr \u002F>\n\n:warning: To execute the commands provided in the next sections for training and evaluation, the `dinov2` package should be included in the Python module search path, i.e. simply prefix the command to run with `PYTHONPATH=.`.\n\n## Training\n\n### Fast setup: training DINOv2 ViT-L\u002F16 on ImageNet-1k\n\nRun DINOv2 training on 4 A100-80GB nodes (32 GPUs) in a SLURM cluster environment with submitit:\n\n```shell\npython dinov2\u002Frun\u002Ftrain\u002Ftrain.py \\\n    --nodes 4 \\\n    --config-file dinov2\u002Fconfigs\u002Ftrain\u002Fvitl16_short.yaml \\\n    --output-dir \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR> \\\n    train.dataset_path=ImageNet:split=TRAIN:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\nTraining time is approximately 1 day and the resulting checkpoint should reach 81.6% on k-NN eval and 82.9% on linear eval.\n\nThe training code saves the weights of the teacher in the `eval` folder every 12500 iterations for evaluation.\n\n### Long setup: training DINOv2 ViT-L\u002F14 on ImageNet-22k\n\nRun DINOv2 training on 12 A100-80GB nodes (96 GPUs) in a SLURM cluster environment with submitit:\n\n```shell\npython dinov2\u002Frun\u002Ftrain\u002Ftrain.py \\\n    --nodes 12 \\\n    --config-file dinov2\u002Fconfigs\u002Ftrain\u002Fvitl14.yaml \\\n    --output-dir \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR> \\\n    train.dataset_path=ImageNet22k:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\nTraining time is approximately 3.3 days and the resulting checkpoint should reach 82.0% on k-NN eval and 84.5% on linear eval.\n\nThe training code saves the weights of the teacher in the `eval` folder every 12500 iterations for evaluation.\n\n\n## Evaluation\n\nThe training code regularly saves the teacher weights. In order to evaluate the model, run the following evaluation on a single node:\n\n### k-NN classification on ImageNet-1k\n\n```shell\npython dinov2\u002Frun\u002Feval\u002Fknn.py \\\n    --config-file \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Fconfig.yaml \\\n    --pretrained-weights \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Fteacher_checkpoint.pth \\\n    --output-dir \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Fknn \\\n    --train-dataset ImageNet:split=TRAIN:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET> \\\n    --val-dataset ImageNet:split=VAL:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\n### Logistic regression classification on ImageNet-1k\n\n```shell\npython dinov2\u002Frun\u002Feval\u002Flog_regression.py \\\n    --config-file \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Fconfig.yaml \\\n    --pretrained-weights \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Fteacher_checkpoint.pth \\\n    --output-dir \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Flogreg \\\n    --train-dataset ImageNet:split=TRAIN:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET> \\\n    --val-dataset ImageNet:split=VAL:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\n### Linear classification with data augmentation on ImageNet-1k\n\n```shell\npython dinov2\u002Frun\u002Feval\u002Flinear.py \\\n    --config-file \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Fconfig.yaml \\\n    --pretrained-weights \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Fteacher_checkpoint.pth \\\n    --output-dir \u003CPATH\u002FTO\u002FOUTPUT\u002FDIR>\u002Feval\u002Ftraining_24999\u002Flinear \\\n    --train-dataset ImageNet:split=TRAIN:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET> \\\n    --val-dataset ImageNet:split=VAL:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\nWe release the weights from evaluating the different models:\n\n\u003Ctable style=\"margin: auto\">\n  \u003Ctr>\n    \u003Cth>model\u003C\u002Fth>\n    \u003Cth>with\u003Cbr \u002F>registers\u003C\u002Fth>\n    \u003Cth>ImageNet\u003Cbr \u002F>top-1\u003C\u002Fth>\n    \u003Cth>linear evaluation\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">81.1%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-S\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">80.8%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vits14\u002Fdinov2_vits14_reg4_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">84.5%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-B\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">84.4%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitb14\u002Fdinov2_vitb14_reg4_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">86.3%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-L\u002F14 distilled\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">86.5%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitl14\u002Fdinov2_vitl14_reg4_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:x:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">86.5%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n    \u003Ctd align=\"center\">:white_check_mark:\u003C\u002Ftd>\n    \u003Ctd align=\"right\">87.0%\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_reg4_linear_head.pth\">linear head weights\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\nThe performance of the provided pretrained model weights can be evaluated as follows on ImageNet-1k:\n\n```shell\npython dinov2\u002Frun\u002Feval\u002Flinear.py \\\n    --config-file dinov2\u002Fconfigs\u002Feval\u002Fvitg14_pretrain.yaml \\\n    --pretrained-weights https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fdinov2\u002Fdinov2_vitg14\u002Fdinov2_vitg14_pretrain.pth \\\n    --train-dataset ImageNet:split=TRAIN:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET> \\\n    --val-dataset ImageNet:split=VAL:root=\u003CPATH\u002FTO\u002FDATASET>:extra=\u003CPATH\u002FTO\u002FDATASET>\n```\n\n## Notebooks\n\nA few notebooks are provided to help the community leverage the models and code:\n\n\u003Cul>\n  \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fnotebooks\u002Fdepth_estimation.ipynb\">Depth estimation\u003C\u002Fa> - How to load and use the depth heads in combination with a matching backbone via mmcv\u003C\u002Fli>\n  \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fnotebooks\u002Fsemantic_segmentation.ipynb\">Semantic segmentation\u003C\u002Fa> - How to load and use the segmentation heads in combination with a matching backbone via mmcv, and also how to load and use the Mask2Former-based segmentation model trained on ADE20K\u003C\u002Fli>\n\u003C\u002Ful>\n\n## License\n\nDINOv2 code and model weights are released under the Apache License 2.0. See [LICENSE](LICENSE) for additional details.\n\n## Contributing\n\nSee [contributing](CONTRIBUTING.md) and the [code of conduct](CODE_OF_CONDUCT.md).\n\n## Citing DINOv2\n\nIf you find this repository useful, please consider giving a star :star: and citation :t-rex::\n\n```\n@misc{oquab2023dinov2,\n  title={DINOv2: Learning Robust Visual Features without Supervision},\n  author={Oquab, Maxime and Darcet, Timothée and Moutakanni, Theo and Vo, Huy V. and Szafraniec, Marc and Khalidov, Vasil and Fernandez, Pierre and Haziza, Daniel and Massa, Francisco and El-Nouby, Alaaeldin and Howes, Russell and Huang, Po-Yao and Xu, Hu and Sharma, Vasu and Li, Shang-Wen and Galuba, Wojciech and Rabbat, Mike and Assran, Mido and Ballas, Nicolas and Synnaeve, Gabriel and Misra, Ishan and Jegou, Herve and Mairal, Julien and Labatut, Patrick and Joulin, Armand and Bojanowski, Piotr},\n  journal={arXiv:2304.07193},\n  year={2023}\n}\n```\n\n```\n@misc{darcet2023vitneedreg,\n  title={Vision Transformers Need Registers},\n  author={Darcet, Timothée and Oquab, Maxime and Mairal, Julien and Bojanowski, Piotr},\n  journal={arXiv:2309.16588},\n  year={2023}\n}\n```\n\n```\n@misc{jose2024dinov2meetstextunified,\n  title={DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment},\n  author={Cijo Jose and Théo Moutakanni and Dahyun Kang and Federico Baldassarre and Timothée Darcet and Hu Xu and Daniel Li and Marc Szafraniec and Michaël Ramamonjisoa and Maxime Oquab and Oriane Siméoni and Huy V. Vo and Patrick Labatut and Piotr Bojanowski},\n  journal={arXiv:2412.16334},\n  year={2024}\n}\n```\n\n\n# DINOv2 for Biology\n\nThe contents of the source code contained in the cell_dino folders, including the code and model weights, are intended for research use only. It is not for use in medical procedures, including any diagnostics, treatment, or curative applications. Do not use this model for any clinical purpose or as a substitute for professional medical judgement.\n\n\n## Scaling Channel-Adaptive Self-Supervised Learning (Channel-Adaptive DINO)\n\n [[`Paper `](https:\u002F\u002Fopenreview.net\u002Fforum?id=pT8sgtRVAf))] [[`BibTeX`](#citing-channeladaptivedino-and-dinov2)]\n\nAlice V. De Lorenci, Seungeun Yi, Théo Moutakanni, Piotr Bojanowski, Camille Couprie, Juan C. Caicedo, Wolfgang M. Pernice,\n\nwith special thanks to Elouan Gardes for his contributions to the codebase.\n\n [README](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fdocs\u002FREADME_CHANNEL_ADAPTIVE_DINO.md)\n\n\n\n## Cell-DINO: Self-Supervised Image-based Embeddings for Cell Fluorescent Microscopy (Cell-DINO)\n\nThéo Moutakanni, Camille Couprie, Seungeun Yi, Elouan Gardes, Piotr Bojanowski, Hugo Touvron, Michael Doron, Zitong S. Chen, Nikita Moshkov, Mathilde Caron, Armand Joulin,  Wolfgang M. Pernice, Juan C. Caicedo\n\nto appear soon.\n\n [README](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fdocs\u002FREADME_CELL_DINO.md)\n\n\n## Pretrained models\n\nℹ️ Please follow the link provided below to get access to all the model weights: once accepted, an e-mail will be sent with the complete list of URLs pointing to all the available model weights. These URLs can then be used to either:\n\n- download the model or adapter weights to a local filesystem and point `torch.hub.load()` to these local weights via the `pretrained_path` parameters, or\n- directly invoke `torch.hub.load()` to download and load a backbone from its URL via also the `pretrained_url` parameter.\n\n⚠️ Please use wget instead of a web browser to download the weights.\n\n**Download link:**\nhttps:\u002F\u002Fai.meta.com\u002Fresources\u002Fmodels-and-libraries\u002Fcell-dino-downloads\u002F\n\n```python\nimport torch\n\nREPO_DIR = \u003CPATH\u002FTO\u002FA\u002FLOCAL\u002FDIRECTORY\u002FWHERE\u002FTHE\u002FDINOV2\u002FREPO\u002FWAS\u002FCLONED>\n\n# You can either download the URL link first, then load:\ncell_dino_vits8 = torch.hub.load(REPO_DIR, 'cell_dino_cp_vits8', source='local', pretrained_path=\u003CCHECKPOINT\u002FPATH>)\n# Or directly download the URL while using `torch.hub.load`:\ncell_dino_vits8 = torch.hub.load(REPO_DIR, 'cell_dino_cp_vits8', source='local', pretrained_url=\u003CCHECKPOINT\u002FURL>)\n\n# Similarily for other models:\ncell_dino_vitl16_hpa_sc = torch.hub.load(REPO_DIR, 'cell_dino_hpa_vitl16', source='local', pretrained_path=\u003CCHECKPOINT\u002FPATH>)\ncell_dino_vitl16_hpa_fov = torch.hub.load(REPO_DIR, 'cell_dino_hpa_vitl16', source='local', pretrained_path=\u003CCHECKPOINT\u002FPATH>)\nchannel_adaptive_dino_vitl16 = torch.hub.load(REPO_DIR, 'channel_adaptive_dino_vitl16', source='local', pretrained_path=\u003CCHECKPOINT\u002FPATH>)\ncell_dino_vitl14 = torch.hub.load(REPO_DIR, 'cell_dino_hpa_vitl14', source='local', pretrained_path=\u003CCHECKPOINT\u002FPATH>)\n```\n\n\n ## Licenses\n\n Code is released under the CC BY NC License. See [LICENSE_CELL_DINO_CODE](LICENSE_CELL_DINO_CODE) for additional details.\n Model weights are released under the FAIR Noncommercial Research License. See [LICENSE_CELL_DINO_CODE_WEIGHTS](LICENSE_CELL_DINO_CODE_WEIGHTS) for additional details.\n","DINOv2 是一个基于 PyTorch 实现的自监督学习方法，用于生成鲁棒的视觉特征。该项目的核心功能是通过无标签的大规模图像数据集（1.42 亿张图像）预训练模型，从而在多种计算机视觉任务中直接使用这些高质量的视觉特征，无需额外微调。技术特点包括支持 XRay-DINO、Channel-Adaptive DINO 和 Cell-DINO 等扩展应用，并引入了注册机制来增强视觉变换器的性能。适用于需要高效且通用图像特征提取的场景，如医学影像分析、生物学研究以及一般性的计算机视觉任务。",2,"2026-06-11 03:43:44","high_star"]