Vlonely (@Very) 在 求助:强关联长文本(10万+ token)信息提取,有没有更好的解决方案? 中发帖
各位大佬好,最近我遇到了一个关于强关联长文本的信息提取问题,想请教大家的建议。
问题背景如下:
我手头上有一些长篇文档,每篇转成Markdown格式后都超过10万token。这些文档的内容结构复杂且章节间关联度很高,比如第一章提到的某些内容可能需要结合第四章甚至后续章节的内容一起进行分析。目前我尝试了各大厂的主流大模型(如GPT类的大语言模型),但发现由于文本长度超出了模型的上下文窗口限制,无法直接一次性完成全文信息提取。
我也尝试了关键词搜索的方案,但效果并不理想,因为很多关键信息是跨章节、跨区域出现的,关键词搜索无法有效关联。
想咨询一下各位大佬,针对这种超长文本、章节强关联的信息提取任务,有没有比较成熟或者推荐的解决方案或思路?或者大家是否有类似的经验能够分享一下?
感谢各位大佬的指点!
补充说明一下,由于公司规定,最好是可以本地部署的模型,或者是国内厂商的API。