LLaVA-NeXT

LLaVA-VL

暂无描述

AI 简介

LLaVA-NeXT 是一个开源的大型多模态模型（LMM）系列，支持图像、视频、文本及交错图文输入的理解与生成。其核心功能包括跨模态对齐、细粒度视觉问答、长视频理解、多图推理和图文交错序列建模，技术上采用Qwen、Llama-3.2等先进视觉语言骨干，结合改进的投影器与训练范式（如GRPO强化学习）。适用于学术研究、多模态AI应用开发、智能内容分析及AIGC辅助创作等场景，提供多种规模模型（如7B）与即用型Hugging Face演示。

Python

Apache License 2.0

在 GitHub 查看

4.7k

Stars

467

Forks

Watchers

340

Issues

Star 增长

今日0

近 7 天0

近 30 天+6

综合评分57.61

默认分支main

LLaVA-NeXT

Star 增长

加入交流群