@maolon 在 LiveBench更新(05-30)之后,排行榜变动 中发帖
[image]
加入了一个新的测试项目:agentic coding,使用来自于 SWE-Agent 的测试集 Multi-SWE-Bench,
加入以后前15变化如下
模型
旧版排名
新版排名
名次变化*
o3 High
1
1
—
Claude 4 Opus Thinking
2
2
—
o3 Medium
3
5
↓ 2
Claude 4 Sonnet Thinking
4
3
↑ 1
Gemini 2.5 Pro Preview (2025-05-06)
5
4
↑ 1
o4-Mini High
6
6
—
DeepSeek R1 (2025-05-28)
7
7
—
Gemini 2.5 Pro Preview (2025-03-25)
8
—
已退出榜单/无法测量
Claude 3.7 Sonnet Thinking
9
8...