@samaltmen 在对于真正干活的场景，国产厂商喜欢搞的按token计费相比于按价格计费，真的很亏中发帖按token计费，就相当于缓存与非缓存输入一视同仁，意味着你在一个会话对话越多，越亏

@samaltmen 在对于真正干活的场景，国产厂商喜欢搞的按token计费相比于按价格计费，真的很亏中发帖

按token计费，就相当于缓存与非缓存输入一视同仁，意味着你在一个会话对话越多，越亏。 
这种按token计费只适合做小项目的小任务+每次新开会话才最划算。 
智谱glm的每天免费300w token，在一个旧的会话里面，发一句话，glm5.2甚至还没看完代码，今天用量就耗光了。缓存率是98%-99%。 
国产厂商设计套餐的时候肯定不会按你长任务98 99%这种缓存率来计算，防止自己亏 肯定是最保守的比如90% 80%缓存率。 
如果是按价格计费，对于这种长上下文，就非常划算（比如OpenCode Go跟ollama cloud的这种国外厂商的套餐，都是按价格计费)。