@fengchrisolmOCR-2-7B更新发布 开源OCR再添王者 中发帖

olmOCR 2 基于 Qwen2.5-VL-7B 搭建,能一次性搞定复杂的页面。先用视觉编码器处理页面图像,再用解码器生成结构化的文本:标题和文档结构用 Markdown,表格用 HTML,数学公式用 LaTeX。 
在 olmOCR-Bench 上,olmOCR 2 拿到了 82.4 分,有史以来最高的分数之一!
[image]
Model: BF16 & FP8