作业君 (@homeworkkun) 在 总算回来上班了,跑了跑Qwen-max-0125的LiveBench 中发帖
[image]
因为官方报告只给了一个平均分,所以我自己跑了一下,跟deepseek和他自家部分模型比较,基本上每一项都是跟V3差不多,但是贵了好多(¥11.2/22.4每百万token)
模型
平均
推理
代码
数学
数据分析
语言
指令跟随
deepseek-r1
73.9
85.3
65.7
79.9
71.8
53.7
87
qwen-max-0125
62.9
50
65.1
56.9
67.8
56.3
81
deepseek-v3
61.97
53.3
62.1
61.9
58.6
52.9
83
qwen-max-32k-240919
55.8
53.3
58.1
52.4
59.7
35.7
75.7
qwen-plus-128k-250112
53.5
45.3
60.1
51
53
35.4
76
qwen2.5-72b-in...