GLM-OCR

zai-org

GLM-OCR: Accurate × Fast × Comprehensive

AI 简介

GLM-OCR 是一个面向复杂文档理解的多模态光学字符识别（OCR）模型，基于 GLM-V 架构，融合布局分析与并行文本识别两阶段流程。其核心采用 CogViT 视觉编码器、轻量跨模态连接器和 0.5B 参数 GLM 语言解码器，引入多 Token 预测损失与全任务强化学习，兼顾高精度（OmniDocBench 94.62 分）、低延迟（0.9B 参数，支持 vLLM/Ollama 部署）与强泛化能力，尤其适用于含公式、表格、印章及代码的业务文档场景。

Python

glm image2text ocr

在 GitHub 查看

7.1k

Stars

642

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+62

综合评分67.62

默认分支main

GLM-OCR

Star 增长

加入交流群