GLM-V

zai-org

GLM-4.6V/4.5V/4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

AI 简介

GLM-V 是一个面向多模态推理的视觉-语言模型项目，旨在通过可扩展的强化学习技术提升模型在复杂问题解决、长上下文理解和多模态代理中的表现。该项目的核心功能包括图像到文本转换、视频理解以及高级推理能力，并且支持多种应用场景，如桌面助手应用、UI 编码等。采用 Python 语言开发，适合需要处理和理解多媒体信息并进行复杂决策的开发者使用。

Python

Apache License 2.0

image2text reasoning video-understanding vlm

在 GitHub 查看

2.3k

Stars

171

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+2

近 30 天+15

综合评分61.21

默认分支main