fance (@fancerest)如何构建非标准化的文本信息提取? 中发帖

现在我有大概一万个公司的年报(pdf格式),我需要提取里面披露的银行授信合同,但是这一部分在不同的年报里面的格式不固定,有的是表格,有的是文字内容,请问有什么大模型方案/python脚本方案可以实现这一功能吗?三位数酬劳 
它是这种文字性信息,然后有的叫什么银行借款,有的叫银行合同,有的叫什么授信合同,有的叫什么重大事项合同,反正反正他的叫法不一样,但是都是同一个东西,