@samaltmen对于真正干活的场景,国产厂商喜欢搞的按token计费相比于按价格计费,真的很亏 中发帖

按token计费,就相当于缓存与非缓存输入一视同仁,意味着你在一个会话对话越多,越亏。 
这种按token计费只适合做小项目的小任务+每次新开会话才最划算。
智谱glm的每天免费300w token,在一个旧的会话里面,发一句话,glm5.2甚至还没看完代码,今天用量就耗光了。缓存率是98%-99%。
国产厂商设计套餐的时候肯定不会按你长任务98 99%这种缓存率来计算,防止自己亏 肯定是最保守的比如90% 80%缓存率。
如果是按价格计费,对于这种长上下文,就非常划算(比如OpenCode Go跟ollama cloud的这种国外厂商的套餐,都是按价格计费)。