ssx (@ccohee) 在 80万+次调用血泪：数据编码 (Encoding) 避坑中发帖佬友们好

ssx (@ccohee) 在 80万+次调用血泪：数据编码 (Encoding) 避坑中发帖

佬友们好。最近几天，为了跑研究的数据，我搞了波高并发 (TPM, RPM 拉满)，三位数到四位数的并发量，直接调用了 80w+ 次大模型做数据编码 (encoding)。懂行的佬友应该知道，这种级别的调用规模简直堪比小型 DDoS 攻击了。 
借着这个机会，我干脆把市面上的云服务厂商和第三方 API 中转站全给盘了一遍。不管是大厂的火山引擎、微软 Azure、谷歌云，还是硅基流动、七牛云这些知名中转，包括咱论坛里佬友们搭的各种第三方中转，我都轮番压测了一圈。 
（第三方中转商我就不点名了，毕竟便宜嘛。如果还能有高并发的话，我已经很知足了。当然某些分不清思考和非思考模型的除外） 
几十万次调用砸下去，几位数的钱花了不少，坑也踩了无数。今天简单盘点一下，给大家避个雷。 
1. 让人脑溢血的 上下文缓存 (Context Caching)
各家对缓存的支持差距极大，这直接决定了你的钱包厚度。 
以...