LLaVA

haotian-liu

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

AI 简介

LLaVA 是一个开源的视觉-语言多模态大模型，通过视觉指令微调技术将大型语言模型与视觉编码器对齐，实现图文理解、视觉问答与多模态对话能力。其核心采用 LLaMA 系列或 Qwen 等开源语言模型作为文本骨干，结合 CLIP 视觉编码器，并在高质量人工标注的视觉指令数据上进行端到端训练；支持图像输入与自然语言交互，具备 GPT-4V 级别多模态理解能力，并已扩展至视频理解场景。适用于科研机构开展多模态基础模型研究、开发者构建智能视觉助手或教育/医疗等垂直领域的图文交互应用。

Python

Apache License 2.0

chatbot chatgpt foundation-models gpt-4 instruction-tuning llama llama-2 llama2 llava multi-modality multimodal vision-language-model visual-language-learning

在 GitHub 查看官方网站

24.9k

Stars

2.8k

Forks

156

Watchers

1.1k

Issues

Star 增长

今日0

近 7 天0

近 30 天+37

综合评分73.7

默认分支main

LLaVA

Star 增长

加入交流群