Zjuwyz (@doomooo) 在跑了一下 DeepSeek-V3-0324 的 LiveBench 结果中发帖等了一天了没人跑，那还是自己来吧 [image] ModelOrganizationGlobal AverageReasoning AverageCoding AverageMathematics AverageData Analysis AverageLanguage AverageIF Averageclaude-3-7-sonnet-thinkingAnthropic76.1087.8374.5479.0074.0559.9381.25o3-mini-2025-01-31-highOpenAI75.8889.5882.7477.2970.6450.6884.36o1-2024-12-17-highOpenAI75.6791.5869.6980.3265.4765.3981.55qw...

Zjuwyz (@doomooo) 在跑了一下 DeepSeek-V3-0324 的 LiveBench 结果中发帖

等了一天了没人跑，那还是自己来吧 
[image] 




Model
Organization
Global Average
Reasoning Average
Coding Average
Mathematics Average
Data Analysis Average
Language Average
IF Average




claude-3-7-sonnet-thinking
Anthropic
76.10
87.83
74.54
79.00
74.05
59.93
81.25


o3-mini-2025-01-31-high
OpenAI
75.88
89.58
82.74
77.29
70.64
50.68
84.36


o1-2024-12-17-high
OpenAI
75.67
91.58
69.69
80.32
65.47
65.39
81.55


qw...