@maolon 在 LiveBench更新（05-30）之后，排行榜变动中发帖[image] 加入了一个新的测试项目：agentic coding，使用来自于 SWE-Agent 的测试集 Multi-SWE-Bench，加入以后前15变化如下模型旧版排名新版排名名次变化*o3 High11—Claude 4 Opus Thinking22—o3 Medium35↓ 2Claude 4 Sonnet Thinking43↑ 1Gemini 2.5 Pro Preview (2025-05-06)54↑ 1o4-Mini High66—DeepSeek R1 (2025-05-28)77—Gemini 2.5 Pro Preview (2025-03-25)8—已退出榜单/无法测量Claude 3.7 Sonnet Thinking98...

@maolon 在 LiveBench更新（05-30）之后，排行榜变动中发帖

[image] 
加入了一个新的测试项目：agentic coding，使用来自于 SWE-Agent 的测试集 Multi-SWE-Bench， 
加入以后前15变化如下 




模型
旧版排名
新版排名
名次变化*




o3 High
1
1
—


Claude 4 Opus Thinking
2
2
—


o3 Medium
3
5
↓ 2


Claude 4 Sonnet Thinking
4
3
↑ 1


Gemini 2.5 Pro Preview (2025-05-06)
5
4
↑ 1


o4-Mini High
6
6
—


DeepSeek R1 (2025-05-28)
7
7
—


Gemini 2.5 Pro Preview (2025-03-25)
8
—
已退出榜单/无法测量


Claude 3.7 Sonnet Thinking
9
8...