林黛玉倒拔垂杨柳 (@Qiner)【直觉扫盲向】关于『硅基流动』的模型用量限制 🔦 中发帖

(\ _ /) 
( ・-・)
/っ 虽然 DeepSeek 官方已足够便宜但毕竟阿硅四舍五入等于免费,所以首选始终是硅基流动。
但是硅基长期处于推广状态,连模型限制设计也是,以最热门的 DeepSeek 为例
[image]
明明 TPM 只有区区 10K,RPM 却是 1000 起步!
海的那边的 GCP 仅有寒碜的 3 RPM。
[image]
这用量设计简直就是为多人对话而生。并且硅基用量允许单次破限, 理论上即使并发爆表,在该模型 TPM Status 被标记为 Limited 之前的并发请求应该都能享受一次全功率模型。(然后本分钟内再请求这模型会报错)
所以基于这个特性,那么对于持续大上下文的需求,只要用号池进行轮询,每个 Key 破限 1 次就安排到饮水机旁边板凳等 1 分钟 CD,那就等于一直拥有无用量限制的满血 DeepSeek 了!!
完...