NICAI (@systemoutprintlnhell)求助:如何高效准确提取PDF中的图片及图注?(包含扫描版和电子版) 中发帖

各位佬友 
我目前在尝试从PDF文件中提取图片及其对应的图注,但在实践过程中遇到了一些棘手的问题,希望有经验的朋友能分享一些经验或思路。
我遇到的主要问题如下:

扫描版PDF的处理:


图片并非独立对象,而是整个页面的扫描图像。
文字部分没有文本层,需要通过OCR技术进行识别。如何选择合适的OCR工具,并确保识别的准确性?是否有针对图片区域和文字区域分别处理的更优方法?


电子版PDF的图注提取:


如何准确定义图片下方或周围图例(caption)的范围?不同排版的PDF图注位置不一,如何用程序化或智能化的方式定位并提取?


文字准确性保障:


无论是OCR识别的文字,还是电子版PDF本身文本层中的文字,都可能存在错误。如何有效地校验和修正这些文字错误,以确保提取内容的准确性?


提取策略的选择:


是应该寻找能直接从PDF中一次性提取图片和图注的工具?
还是先将PDF...