zai-org

GLM-OCR

zai-org

GLM-OCR: Accurate × Fast × Comprehensive

AI 简介

GLM-OCR 是一个面向复杂文档理解的多模态OCR模型,基于GLM-V编码器-解码器架构。它通过引入多令牌预测(MTP)损失和全任务强化学习来提高训练效率、识别准确性和泛化能力。该项目集成了在大规模图文数据上预训练的CogViT视觉编码器、轻量级跨模态连接器以及高效的令牌下采样技术,搭配GLM-0.5B语言解码器,并结合PP-DocLayout-V3布局分析与并行识别两阶段流程,实现对多样化文档布局的强大且高质量的OCR性能。该模型在OmniDocBench V1.5等基准测试中达到领先水平,特别适用于处理包含复杂表格、代码密集型文档及印章等实际业务场景中的挑战性布局。此外,仅含0.9B参数的GLM-OCR支持多种部署方式,显著降低了推理延迟和计算成本,非常适合高并发服务及边缘设备部署。此项目完全开源,提供全面的SDK和工具链支持,便于集成到现有生产流程中。

Python
6.9k
Stars
638
Forks
32
Watchers
29
Issues

Star 增长

今日0
近 7 天+57
近 30 天+478
综合评分91.42
默认分支main