作业君 (@homeworkkun) 在总算回来上班了，跑了跑Qwen-max-0125的LiveBench 中发帖[image] 因为官方报告只给了一个平均分，所以我自己跑了一下，跟deepseek和他自家部分模型比较，基本上每一项都是跟V3差不多，但是贵了好多（￥11.2/22.4每百万token）模型平均推理代码数学数据分析语言指令跟随deepseek-r173.985.365.779.971.853.787qwen-max-012562.95065.156.967.856.381deepseek-v361.9753.362.161.958.652.983qwen-max-32k-24091955.853.358.152.459.735.775.7qwen-plus-128k-25011253.545.360.1515335.476qwen2.5-72b-in...

作业君 (@homeworkkun) 在总算回来上班了，跑了跑Qwen-max-0125的LiveBench 中发帖

[image] 
因为官方报告只给了一个平均分，所以我自己跑了一下，跟deepseek和他自家部分模型比较，基本上每一项都是跟V3差不多，但是贵了好多（￥11.2/22.4每百万token） 




模型
平均
推理
代码
数学
数据分析
语言
指令跟随




deepseek-r1
73.9
85.3
65.7
79.9
71.8
53.7
87


qwen-max-0125
62.9
50
65.1
56.9
67.8
56.3
81


deepseek-v3
61.97
53.3
62.1
61.9
58.6
52.9
83


qwen-max-32k-240919
55.8
53.3
58.1
52.4
59.7
35.7
75.7


qwen-plus-128k-250112
53.5
45.3
60.1
51
53
35.4
76


qwen2.5-72b-in...