fruitbars (@sgt)超越炒作:Mistral OCR 的真实世界测试 中发帖

pulseai 针对 mistral ocr 做了个测试,发现这个“世界最强 OCR”虽然效果还不错,但不至于哪都能打,吹嘘有点过了。 
如果使用 VL 模型来做OCR的任务,会面临当前这些问题:

图像方面模糊以及角度、各种少见字、偏僻字、符号等等的处理
结构化数据保留:vl 模型没法给出版面信息的表达
确定性结果:企业工作流需要一致、可复现的输出,而 VLM(如 Mistral)即使在相同输入下也可能产生不同的结果。就是有幻觉,这是致命的!

以下是翻译的全文内容,值得参考!!!

超越炒作:Mistral OCR 的真实世界测试
Mistral AI 推出了他们所谓的“全球最佳 OCR(光学字符识别)模型”。作为该领域的开发者,我们决定在复杂的嵌套表格、饼图等方面对其进行测试,以查看 VLM(视觉语言模型)是否仍然存在幻觉问题,以及问题的严重程度。虽然结果比 Gemini 2....