salesforce

LAVIS

salesforce

LAVIS - A One-stop Library for Language-Vision Intelligence

AI 简介

LAVIS 是一个集成了多种语言-视觉智能任务的综合性库。它支持图像字幕生成、多模态数据集处理、视觉-语言预训练等多种核心功能,基于深度学习技术,并特别强调了对不同模态(如图像、视频、音频、3D)的支持能力。通过利用冻结的大规模语言模型,LAVIS 提供了一种跨模态框架,能够简化多模态应用开发流程,无需为每种模态单独定制大量代码。此项目适用于需要构建或研究涉及自然语言处理与计算机视觉交叉领域解决方案的场景,例如自动描述生成、基于内容的搜索系统以及复杂的问答系统等。

Jupyter Notebook
BSD 3-Clause "New" or "Revised" License
11.2k
Stars
1.1k
Forks
93
Watchers
474
Issues

Star 增长

今日0
近 7 天+7
近 30 天+21
综合评分74.73
默认分支main