One day (@ccutzyy) 在别再把整份合同丢给大模型了：超长文档审核系统的正确打开方式中发帖前段时间做了一块长文档/合同审核能力，过程比我一开始想的要绕很多

One day (@ccutzyy) 在别再把整份合同丢给大模型了：超长文档审核系统的正确打开方式中发帖

前段时间做了一块长文档/合同审核能力，过程比我一开始想的要绕很多。 
最早的想法其实特别朴素：文档上传，抽出文本，拼一段 prompt，然后把全文丢给大模型，让它给审核意见。小样本文档跑起来还挺像那么回事，演示的时候也能看到结果。 
但一换成长一点的合同，问题就来了。 
有的文档几十页，正文、附件、表格、补充说明全混在一起。模型不是完全看不懂，它甚至能给出一段“看起来很专业”的分析。麻烦在于，你继续追问：依据在哪一段？有没有漏掉附件里的限制？为什么这里判成不符合？这时候它就开始不稳定了。 
我后来才意识到，这类功能不能按“聊天问答”来做。 
它更像一条审核流水线：先把文档整理成可检索、可定位、可追溯的证据片段，再让模型围绕一个个明确审核点去判断。模型只是其中一个环节，不应该直接扛完整份文档。 
下面就按我自己的实现过程和踩坑，整理一下这套思路。 

1. 第一个版本：全文直接塞给模型
第一...