绪里 (@shcofficial) 在斯坦福伯克利新研究：标价便宜的模型可能实际使用成本更高，选模型不能只看单价中发帖因为是和选择模型相关所以还是放在这个板块里了

绪里 (@shcofficial) 在斯坦福伯克利新研究：标价便宜的模型可能实际使用成本更高，选模型不能只看单价中发帖

因为是和选择模型相关所以还是放在这个板块里了。 
刷到一篇近期斯坦福/伯克利/CMU/微软研究院的研究，其中测试了8种推理模型在9个任务上的表现，结果是在大约22%的模型对的比较里，标价低的模型实际使用成本更高。比如Gemini 3 flash标价比GPT 5.2便宜78%，但它的实际使用成本却高出22%。 
 [image] 
论文里分析的是单轮对话使用成本，这里会出现价格反转的原因是不同模型做推理消耗的token数不同，看起来便宜的模型有时候可能会消耗更多token做推理，这完全是隐藏消耗。甚至论文里还发现有些模型用同一个prompt多次发出请求，推理token的消耗可能相差9.7倍，所以实际的开销只靠一次测试也很难估计。 
其实论文有一些其他视角没有提到，就是单价便宜的模型可能因为太笨，反而需要更多的对话轮数才能干活，但是单价贵的强模型可能一轮就能完事。多轮对话里每一轮的请求都会带上...