Shyliuli 在 [持续更新]livebench0425+aider综合榜单(更新至qwen3 32b) 中发帖更新至qwen3 32b ModelOrganizationGlobal AverageReasoning AverageaiderMathematics AverageData Analysis AverageLanguage AverageIF Averageo3 HighOpenAI81.1993.3379.68567.027686.17o4-Mini HighOpenAI77.3988.117284.968.3366.0584.96Gemini 2.5 Pro PreviewGoogle76.9987.5372.989.1662.4769.3180.59Claude 3.7 Sonnet ThinkingAnthropic73.1276.1764.97969.1168...

Shyliuli 在 [持续更新]livebench0425+aider综合榜单(更新至qwen3 32b) 中发帖

更新至qwen3 32b 




Model
Organization
Global Average
Reasoning Average
aider
Mathematics Average
Data Analysis Average
Language Average
IF Average




o3 High
OpenAI
81.19
93.33
79.6
85
67.02
76
86.17


o4-Mini High
OpenAI
77.39
88.11
72
84.9
68.33
66.05
84.96


Gemini 2.5 Pro Preview
Google
76.99
87.53
72.9
89.16
62.47
69.31
80.59


Claude 3.7 Sonnet Thinking
Anthropic
73.12
76.17
64.9
79
69.11
68...