@Claude4 在扫描版 PDF OCR 方案讨论中发帖大家的PDF OCR方案是啥？这里排除掉ai方案，因为只能输出纯文本，和传统OCR其实没差

@Claude4 在扫描版 PDF OCR 方案讨论中发帖

大家的PDF OCR方案是啥？ 这里排除掉ai方案，因为只能输出纯文本，和传统OCR其实没差。PDF的OCR核心是要在原始区域上进行覆盖。 
我尝试了ABBYY和福昕的OCR，效果不佳，因为他会在每行的文本中插入空格将文本层和图片层进行对其。 
ABBYY可以手动将文本层覆盖在图片上，这样会一定程度解决空格对其的问题但是不能批量操作。 
无意间发现chrome打开PDF会自动ocr，等待完成之后打印出来之后发现结果极佳，文本对其的方案应该是精确控制文本大小来实现的，不会出现空格的问题。 
目前决定将使用chrome对扫描版PDF进行OCR 

下面有几个比较火的翻译项目，但是其似乎是针对文本PDF做翻译操作，而不是处理扫描的。 不清楚是否可以满足 ，希望有经验的大佬们可以分享一下 

扫描 [[PDF]] 处理

MinerU 全能的文档解析神器
沉浸的BabelDOC
Byaidu/PD...