小于 (@yongping_yu)讨论&求助,有没有大佬接触过AI解析pdf为结构化数据的项目 中发帖

背景:公司有个解析pdf数据的项目,主要是将各种金融类的报告pdf,理财说明书pdf解析为结构化数据。以前是用python+pdfplumber、PyMuPDF、pdf2docx解析文件,最后用正则提取出需要的数据转为表格这种形式。但是缺点很明显,一旦文件有描述或结构变化、跨页等情况脚本就会失效,需要频繁维护,导致最后变得难以迭代。 
LLM的出现解决了上述问题,将文件通过python提取成文本或者OCR后传入给模型,让模型输出json类型的数据,可以大幅减少复杂的解析代码,而且当文档内容有一定变化模型也能理解并正确提取。
缺点:面对几十页的pdf,和超长的提示词,模型还是不可避免的会出现注意力丢失,幻觉等情况,导致解析结果质量下降。
但是由于本人没有这方面的开发经验,对项目的pipeline架构设计没有很好的方向。目前能想到的是先对pdf做预处理,比如先用廉价模型剔除不需要的段落,降...