小于 (@yongping_yu) 在讨论&求助，有没有大佬接触过AI解析pdf为结构化数据的项目中发帖背景：公司有个解析pdf数据的项目，主要是将各种金融类的报告pdf，理财说明书pdf解析为结构化数据

小于 (@yongping_yu) 在讨论&求助，有没有大佬接触过AI解析pdf为结构化数据的项目中发帖

背景：公司有个解析pdf数据的项目，主要是将各种金融类的报告pdf，理财说明书pdf解析为结构化数据。以前是用python+pdfplumber、PyMuPDF、pdf2docx解析文件，最后用正则提取出需要的数据转为表格这种形式。但是缺点很明显，一旦文件有描述或结构变化、跨页等情况脚本就会失效，需要频繁维护，导致最后变得难以迭代。 
LLM的出现解决了上述问题，将文件通过python提取成文本或者OCR后传入给模型，让模型输出json类型的数据，可以大幅减少复杂的解析代码，而且当文档内容有一定变化模型也能理解并正确提取。 
缺点：面对几十页的pdf，和超长的提示词，模型还是不可避免的会出现注意力丢失，幻觉等情况，导致解析结果质量下降。 
但是由于本人没有这方面的开发经验，对项目的pipeline架构设计没有很好的方向。目前能想到的是先对pdf做预处理，比如先用廉价模型剔除不需要的段落，降...