绪里 (@shcofficial) 在 斯坦福伯克利新研究:标价便宜的模型可能实际使用成本更高,选模型不能只看单价 中发帖
因为是和选择模型相关所以还是放在这个板块里了。
刷到一篇近期斯坦福/伯克利/CMU/微软研究院的研究,其中测试了8种推理模型在9个任务上的表现,结果是在大约22%的模型对的比较里,标价低的模型实际使用成本更高。比如Gemini 3 flash标价比GPT 5.2便宜78%,但它的实际使用成本却高出22%。
[image]
论文里分析的是单轮对话使用成本,这里会出现价格反转的原因是不同模型做推理消耗的token数不同,看起来便宜的模型有时候可能会消耗更多token做推理,这完全是隐藏消耗。甚至论文里还发现有些模型用同一个prompt多次发出请求,推理token的消耗可能相差9.7倍,所以实际的开销只靠一次测试也很难估计。
其实论文有一些其他视角没有提到,就是单价便宜的模型可能因为太笨,反而需要更多的对话轮数才能干活,但是单价贵的强模型可能一轮就能完事。多轮对话里每一轮的请求都会带上...