遁地小野人 (@mydubai7794)折腾通了多agent多大模型协作的问题,coding plan套壳NewAPI踩坑分享 中发帖

最近手头订阅了智谱 GLM 和 MiniMax 的 Coding Plan。但在实际使用中,遇到一个极其蛋疼的资源错配问题:GLM 不够用,MiniMax用不完 
1. 遇到的问题
之前我使用的是 Claude Code,为了充分利用两个coding plan
计划是用 NewAPI 做一层套壳路由,在不同的 Agent 任务中配置不同的模型,实现自动分流。但实操下来完全不可行: 一旦触发了官方 API 的 429 Rate Limit(并发或限流报错),Claude Code 会直接将连接降级为非流式(Non-streaming)。
并且非流式的响应速度慢得令人发指,需要 100s 到 300s 才能返回一次内容。这时候终端界面就跟死机了一样卡在那里,并且在后台一直重试。如图:
[image]
深挖根因分析: 这大概率是协议格式背的锅。Claude Code 底层强制使用 An...