云烟成雨 (@2565858137) 在 对于日常来说,大模型排行榜高的一定比低的强? 中发帖
首先附上:livebench中qwen-max和gemini 2.0 flash的语言能力评分
qwen max:
[image]
gemini 2.0 flash:
[image]
我问了一个关于职业规划的问题,同样的提示词问了这两个ai,并且把对话导出给其他ai看,让他们对这两个对话进行评分,deepseek—r1,kimi—k1.5,gemini 12-06都说gemini 2.0 flash回答得更好
[PixPin_2025-02-06_22-35-04]
[image]
这是我询问claude得出的原因:
[image]
此次实验存在幸存者偏差,也可能是因为这两个模型差距还不够大,并不能说明什么,但我觉得可以给佬友们一点启示:对于日常使用而言,能解决问题的ai就是好ai。欢迎佬友进行更多实验,也请佬友指点一二。