smellyCat (@zheyong) 在 🙏请教大家,如何稳定处理10万token上下文作为输入 中发帖
🚩问题描述:
我在调用大模型 Gemini-2.5-pro API 时遇到问题:
虽然当前使用的模型理论上支持 1M token 的上下文,但我需要提交一段约 10 万 token 的文本作为输入上下文,在实际调用时:
请求常常因 超时或 payload 太大失败
无法稳定传入这么大的输入,导致关键上下文注入失败
而我这段 10 万 token 的内容是上游任务已浓缩处理的最终结构化信息,不能再做摘要裁剪,必须完整保留,用于构建后续结构化输出(如大纲、分析等)。
✅当前思路:
将这段输入文本 切分成若干段(如每段 5K~10K token)
通过多轮调用模型 API,逐轮将每段输入发送到同一会话上下文中
等模型「接收完所有上下文」后,再发送主问题,要求基于这些内容输出结构化答案
❓希望确认:
这种多轮上下文注入策略是否为主流或推荐做法?
Gemini-2.5 支持 1M...