apple

ml-fastvlm

apple

This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025

AI 简介

FastVLM 是一个高效视觉编码的多模态模型,旨在提升视觉语言模型处理高分辨率图像时的效率。该项目的核心功能是通过引入一种名为 FastViTHD 的新型混合视觉编码器来减少输出的 token 数量并显著缩短编码时间。技术上,它不仅在速度上远超同类模型(例如最小变体比 LLaVA-OneVision-0.5B 快 85 倍),而且在准确性方面也表现出色。此外,项目还提供了一个 iOS 演示应用,展示了模型在移动设备上的性能。FastVLM 特别适合需要快速准确处理图像与文本结合任务的应用场景,如实时图像识别、内容生成等。

Python
Other
7.4k
Stars
553
Forks
65
Watchers
49
Issues

Star 增长

今日0
近 7 天+11
近 30 天+28
综合评分52.53
默认分支main