smellyCat (@zheyong) 在 🙏请教大家，如何稳定处理10万token上下文作为输入中发帖🚩问题描述：我在调用大模型 Gemini-2.5-pro API 时遇到问题：虽然当前使用的模型理论上支持 1M token 的上下文，但我需要提交一段约 10 万 token 的文本作为输入上下文，在实际调用时：请求常常因超时或 payload 太大失败无法稳定传入这么大的输入，导致关键上下文注入失败而我这段 10 万 token 的内容是上游任务已浓缩处理的最终结构化信息，不能再做摘要裁剪，必须完整保留，用于构建后续结构化输出（如大纲、分析等）

smellyCat (@zheyong) 在 🙏请教大家，如何稳定处理10万token上下文作为输入中发帖

🚩问题描述：
我在调用大模型 Gemini-2.5-pro API 时遇到问题： 
虽然当前使用的模型理论上支持 1M token 的上下文，但我需要提交一段约 10 万 token 的文本作为输入上下文，在实际调用时： 

请求常常因 超时或 payload 太大失败
无法稳定传入这么大的输入，导致关键上下文注入失败

而我这段 10 万 token 的内容是上游任务已浓缩处理的最终结构化信息，不能再做摘要裁剪，必须完整保留，用于构建后续结构化输出（如大纲、分析等）。 

✅当前思路：

将这段输入文本 切分成若干段（如每段 5K~10K token）
通过多轮调用模型 API，逐轮将每段输入发送到同一会话上下文中
等模型「接收完所有上下文」后，再发送主问题，要求基于这些内容输出结构化答案


❓希望确认：

这种多轮上下文注入策略是否为主流或推荐做法？
Gemini-2.5 支持 1M...