CogVLM

zai-org

a state-of-the-art-level open visual language model | 多模态预训练模型

AI 简介

CogVLM 是一个先进的开源多模态预训练模型，能够支持图像理解和多轮对话。该项目的核心功能包括通过10亿视觉参数和7亿语言参数实现高分辨率（490*490）的图像处理能力，并在NoCaps、Flicker30k captioning等10个经典跨模态基准测试中达到顶尖性能。基于此，CogAgent进一步增强了对更高分辨率（1120*1120）图像的理解及图形用户界面代理的能力，在VQAv2、OK-VQA等多个跨模态任务上表现出色，特别是在AITW和Mind2Web等GUI操作数据集上显著超越现有模型。这两个模型非常适合需要结合视觉与文本理解的应用场景，如智能问答系统、自动化图形界面交互工具开发等领域。

Python

Apache License 2.0

cross-modality language-model multi-modal pretrained-models visual-language-models

在 GitHub 查看

6.7k

Stars

453

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分33.97

默认分支main