
CogVLM2
zai-org
GPT4V-level open-source multi-modal model based on Llama3-8B
AI 简介
CogVLM2 是一个基于 Llama3-8B 的开源多模态模型,达到 GPT4V 级别的性能。该项目的核心功能包括支持 8K 内容长度和高达 1344*1344 分辨率的图像处理,并且提供中英文双语支持。此外,CogVLM2 还推出了视频理解版本 CogVLM2-Video,能够通过提取关键帧来解释连续图像,支持长达一分钟的视频。技术上,该模型在多个基准测试如 TextVQA 和 DocVQA 上表现出显著改进,并且提供了多种量化版本以适应不同的硬件需求。适用于需要高质量图文理解和生成的应用场景,例如智能客服、内容审核、教育辅助等。
Python
Apache License 2.02.4k
Stars
163
Forks
28
Watchers
58
Issues
Star 增长
今日0
近 7 天+1
近 30 天+1
综合评分59.24
默认分支main