huggingface

nanoVLM

huggingface

The simplest, fastest repository for training/finetuning small-sized VLMs.

AI 简介

nanoVLM 是一个用于训练和微调小型视觉-语言模型的简洁快速仓库。项目采用纯 PyTorch 实现,代码可读性强且易于理解,核心组件包括视觉骨干、语言解码器、模态投影以及视觉-语言模型本身,整个训练逻辑仅需约750行代码。通过使用预定义的视觉和语言模型作为基础,用户可以轻松地在单个H100 GPU上完成对模型的训练或微调。该项目非常适合需要快速实验视觉-语言任务的研究者或开发者,尤其是在资源有限的情况下寻求高效解决方案的场景。

Python
Apache License 2.0
4.9k
Stars
493
Forks
28
Watchers
35
Issues

Star 增长

今日+2
近 7 天+12
近 30 天+34
综合评分73.48
默认分支main