灵空空 (@lingkongkong) 在 请教下给位佬友PDF中表格转Excel的问题 中发帖
我需要从各银行个人流水明细清单的 PDF 版本中提取交易数据并转换为 Excel,且无需提取交易数据前的基础信息。具体情况如下:
已尝试的提取方法及问题:
Python 工具:使用过 pdfplumber、tabula 和 camelot,存在的问题是当 PDF 中某个单元格内容换行时,提取出的内容会呈现多行。
Java 工具:试过 itext、tabula 和 pdfbox,同样面临单元格内容换行导致提取内容多行的问题,此外,部分银行的电子业务章覆盖在数据上时,提取出的数据会残缺。
OCR 工具:使用百度 paddle ocr 的 CPU 版本,其能识别官网图片,但不知道为什么无法识别我需要处理的流水 PDF 文件,没有识别结果。
AI 工具:尝试过通过豆包和Deepseek转换,但仅能处理少量文件,无法实现批量转换,且目前未接入任何 AI 的 API。
希望能找到可实现批量...