
LLaVA
haotian-liu
[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
AI 简介
LLaVA 是一个视觉指令微调项目,旨在开发具备GPT-4级别能力的大型语言和视觉模型。其核心功能包括通过多模态学习来增强模型对图像和文本的理解与生成能力,支持基于LLaMA及其变体的预训练模型进行进一步优化。该项目特别适用于需要处理复杂视觉信息并结合自然语言理解的应用场景,如图像描述、视觉问答系统等。此外,LLaVA还提供了丰富的社区贡献资源,包括Colab笔记本、Hugging Face空间及多种部署方式,方便开发者快速上手和应用。
Python
Apache License 2.024.9k
Stars
2.8k
Forks
156
Watchers
1.1k
Issues
Star 增长
今日0
近 7 天+16
近 30 天+99
综合评分67.9
默认分支main