CogVLM2

zai-org

GPT4V-level open-source multi-modal model based on Llama3-8B

AI 简介

CogVLM2 是一个开源的多模态大语言模型，基于 Llama3-8B 架构，支持图文理解与生成，性能接近 GPT-4V。核心功能包括高分辨率图像理解（最高1344×1344）、长上下文支持（8K tokens）、中英双语能力，以及衍生的视频理解版本 CogVLM2-Video（通过关键帧提取支持最长1分钟视频分析）。提供 Int4 量化版（16GB显存即可运行）和 TGI 部署适配版本。适用于智能客服、文档解析、教育辅助、内容审核等需跨模态理解的实际业务场景。

Python

Apache License 2.0

cogvlm language-model multi-modal pretrained-models

在 GitHub 查看

2.4k

Stars

163

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分58.64

默认分支main

CogVLM2

Star 增长

加入交流群