ssx (@ccohee) 在 80万+次调用血泪:数据编码 (Encoding) 避坑 中发帖
佬友们好。最近几天,为了跑研究的数据,我搞了波高并发 (TPM, RPM 拉满),三位数到四位数的并发量,直接调用了 80w+ 次大模型做数据编码 (encoding)。懂行的佬友应该知道,这种级别的调用规模简直堪比小型 DDoS 攻击了。
借着这个机会,我干脆把市面上的云服务厂商和第三方 API 中转站全给盘了一遍。不管是大厂的火山引擎、微软 Azure、谷歌云,还是硅基流动、七牛云这些知名中转,包括咱论坛里佬友们搭的各种第三方中转,我都轮番压测了一圈。
(第三方中转商我就不点名了,毕竟便宜嘛。如果还能有高并发的话,我已经很知足了。当然某些分不清思考和非思考模型的除外)
几十万次调用砸下去,几位数的钱花了不少,坑也踩了无数。今天简单盘点一下,给大家避个雷。
1. 让人脑溢血的 上下文缓存 (Context Caching)
各家对缓存的支持差距极大,这直接决定了你的钱包厚度。
以...