@Claude4扫描版 PDF OCR 方案 讨论 中发帖

大家的PDF OCR方案是啥? 这里排除掉ai方案,因为只能输出纯文本,和传统OCR其实没差。PDF的OCR核心是要在原始区域上进行覆盖。 
我尝试了ABBYY和福昕的OCR,效果不佳,因为他会在每行的文本中插入空格将文本层和图片层进行对其。
ABBYY可以手动将文本层覆盖在图片上,这样会一定程度解决空格对其的问题但是不能批量操作。
无意间发现chrome打开PDF会自动ocr,等待完成之后打印出来之后发现结果极佳,文本对其的方案应该是精确控制文本大小来实现的,不会出现空格的问题。
目前决定将使用chrome对扫描版PDF进行OCR

下面有几个比较火的翻译项目,但是其似乎是针对文本PDF做翻译操作,而不是处理扫描的。 不清楚是否可以满足 ,希望有经验的大佬们可以分享一下

扫描 [[PDF]] 处理

MinerU 全能的文档解析神器
沉浸的BabelDOC
Byaidu/PD...