Bunn (@BunnHack) 在 智普发布GLM-OCR 中发帖
GLM-OCR 是一款基于 GLM-V 编码器-解码器(encoder–decoder)架构构建的、用于复杂文档理解的多模态 OCR 模型。它引入了多 Token 预测(MTP)损失函数和稳定的全任务强化学习,以提升训练效率、识别准确率及泛化能力。该模型集成了在大规模图文数据上预训练的 CogViT 视觉编码器、具备高效 Token 下采样功能的轻量级跨模态连接器,以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的版面分析与并行识别两阶段流水线,GLM-OCR 在处理各类文档版面时均能展现出稳健且高质量的 OCR 性能。
核心特性
业界领先的性能:在 OmniDocBench V1.5 评测中获得 94.62 分,位列总榜第一。同时,在公式识别、表格识别及信息提取等主流文档理解基准测试中均达到了顶尖(SOTA)水平。
针对真实场景优化:专为实际业务场景设...