云烟成雨 (@2565858137) 在对于日常来说，大模型排行榜高的一定比低的强？中发帖首先附上：livebench中qwen-max和gemini 2.0 flash的语言能力评分 qwen max： [image] gemini 2.0 flash： [image] 我问了一个关于职业规划的问题，同样的提示词问了这两个ai，并且把对话导出给其他ai看，让他们对这两个对话进行评分，deepseek—r1，kimi—k1.5，gemini 12-06都说gemini 2.0 flash回答得更好 [PixPin_2025-02-06_22-35-04] [image] 这是我询问claude得出的原因： [image] 此次实验存在幸存者偏差，也可能是因为这两个模型差距还不够大，并不能说明什么，但我觉得可以给佬友们一点启示：对于日常使用而言，能解决问题的ai就是好ai

云烟成雨 (@2565858137) 在对于日常来说，大模型排行榜高的一定比低的强？中发帖

首先附上：livebench中qwen-max和gemini 2.0 flash的语言能力评分 
qwen max： 
 [image] 
gemini 2.0 flash： 
[image] 
我问了一个关于职业规划的问题，同样的提示词问了这两个ai，并且把对话导出给其他ai看，让他们对这两个对话进行评分，deepseek—r1，kimi—k1.5，gemini 12-06都说gemini 2.0 flash回答得更好 
 [PixPin_2025-02-06_22-35-04] 
[image] 
这是我询问claude得出的原因： 
 [image] 
此次实验存在幸存者偏差，也可能是因为这两个模型差距还不够大，并不能说明什么，但我觉得可以给佬友们一点启示：对于日常使用而言，能解决问题的ai就是好ai。欢迎佬友进行更多实验，也请佬友指点一二。