遁地小野人 (@mydubai7794) 在折腾通了多agent多大模型协作的问题，coding plan套壳NewAPI踩坑分享中发帖最近手头订阅了智谱 GLM 和 MiniMax 的 Coding Plan

遁地小野人 (@mydubai7794) 在折腾通了多agent多大模型协作的问题，coding plan套壳NewAPI踩坑分享中发帖

最近手头订阅了智谱 GLM 和 MiniMax 的 Coding Plan。但在实际使用中，遇到一个极其蛋疼的资源错配问题：GLM 不够用，MiniMax用不完 
1. 遇到的问题
之前我使用的是 Claude Code，为了充分利用两个coding plan 
计划是用 NewAPI 做一层套壳路由，在不同的 Agent 任务中配置不同的模型，实现自动分流。但实操下来完全不可行： 一旦触发了官方 API 的 429 Rate Limit（并发或限流报错），Claude Code 会直接将连接降级为非流式（Non-streaming）。 
并且非流式的响应速度慢得令人发指，需要 100s 到 300s 才能返回一次内容。这时候终端界面就跟死机了一样卡在那里，并且在后台一直重试。如图： 
 [image] 
深挖根因分析： 这大概率是协议格式背的锅。Claude Code 底层强制使用 An...