
CogVLM
zai-org
a state-of-the-art-level open visual language model | 多模态预训练模型
AI 简介
CogVLM 是一个先进的开源多模态预训练模型,能够支持图像理解和多轮对话。该项目的核心功能包括通过10亿视觉参数和7亿语言参数实现高分辨率(490*490)的图像处理能力,并在NoCaps、Flicker30k captioning等10个经典跨模态基准测试中达到顶尖性能。基于此,CogAgent进一步增强了对更高分辨率(1120*1120)图像的理解及图形用户界面代理的能力,在VQAv2、OK-VQA等多个跨模态任务上表现出色,特别是在AITW和Mind2Web等GUI操作数据集上显著超越现有模型。这两个模型非常适合需要结合视觉与文本理解的应用场景,如智能问答系统、自动化图形界面交互工具开发等领域。
Python
Apache License 2.06.7k
Stars
453
Forks
68
Watchers
67
Issues
Star 增长
今日0
近 7 天0
近 30 天0
综合评分33.97
默认分支main