
nanoVLM
huggingface
The simplest, fastest repository for training/finetuning small-sized VLMs.
AI 简介
nanoVLM 是一个用于训练和微调小型视觉-语言模型的简洁快速仓库。项目采用纯 PyTorch 实现,代码可读性强且易于理解,核心组件包括视觉骨干、语言解码器、模态投影以及视觉-语言模型本身,整个训练逻辑仅需约750行代码。通过使用预定义的视觉和语言模型作为基础,用户可以轻松地在单个H100 GPU上完成对模型的训练或微调。该项目非常适合需要快速实验视觉-语言任务的研究者或开发者,尤其是在资源有限的情况下寻求高效解决方案的场景。
Python
Apache License 2.04.9k
Stars
493
Forks
28
Watchers
35
Issues
Star 增长
今日+2
近 7 天+12
近 30 天+34
综合评分73.48
默认分支main