Bunn (@BunnHack) 在智普发布GLM-OCR 中发帖GLM-OCR 是一款基于 GLM-V 编码器-解码器（encoder–decoder）架构构建的、用于复杂文档理解的多模态 OCR 模型

Bunn (@BunnHack) 在智普发布GLM-OCR 中发帖

GLM-OCR 是一款基于 GLM-V 编码器-解码器（encoder–decoder）架构构建的、用于复杂文档理解的多模态 OCR 模型。它引入了多 Token 预测（MTP）损失函数和稳定的全任务强化学习，以提升训练效率、识别准确率及泛化能力。该模型集成了在大规模图文数据上预训练的 CogViT 视觉编码器、具备高效 Token 下采样功能的轻量级跨模态连接器，以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的版面分析与并行识别两阶段流水线，GLM-OCR 在处理各类文档版面时均能展现出稳健且高质量的 OCR 性能。 
核心特性 

业界领先的性能：在 OmniDocBench V1.5 评测中获得 94.62 分，位列总榜第一。同时，在公式识别、表格识别及信息提取等主流文档理解基准测试中均达到了顶尖（SOTA）水平。
针对真实场景优化：专为实际业务场景设...