ml-fastvlm

apple

This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025

AI 简介

FastVLM 是一个面向视觉语言模型（VLM）的高效视觉编码器开源实现，旨在显著降低高分辨率图像的视觉编码开销。其核心是 FastViTHD 混合视觉编码器，通过减少输出 token 数量和优化计算路径，在保持精度的同时大幅提升推理速度（如 TTFT 最快提升 85 倍），并减小模型体积。项目提供多规模模型（0.5B/1.5B/7B）及完整推理支持，已验证在图文理解、细粒度识别（如手写体、表情符号、物体计数）等任务上的高效性。适用于对延迟敏感的端侧或实时 VLM 应用场景，例如移动端多模态交互、边缘设备部署。

Python

Other

在 GitHub 查看

7.4k

Stars

554

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分64.53

默认分支main

ml-fastvlm

Star 增长

加入交流群