虹 连 (@user924)中文OCR哪家强?【系列评测一】 中发帖

众所周知,在语言模型爆发的当下,OCR似乎已经是一个相当成熟、完善的任务场景。那么问题来了: 

对于简单场景,OCR算法能做到100%的准确率吗?
新兴的多模态大模型OCR能力如何?对比传统专门用于OCR的模型和软件又如何?


在使用OCR服务时我便出现了疑问,本文尝试粗浅地使用小样本对上面部分问题进行探究。一些说明:

本测试多模态大模型时,温度统一设置为0。
大部分模型测试5次取平均值(尽管温度设置为0,只有一部分模型多次重复结果一致);对于传统的OCR算法,测试发现每次输出基本完全一致,故没有都测满5次。
本测试仅使用了4张图像,包括新闻评论、书籍截图。
本测试专注于字符准确率,忽略排版影响,使用levenshtein距离计算准确率。

先直接附上测试结果,蓝色为多模态大模型,橙黄色为传统OCR算法/软件等:
[图片1 90%正确率以上OCR测试结果图]
从结果中可以发...