@maolonLiveBench更新(05-30)之后,排行榜变动 中发帖

[image] 
加入了一个新的测试项目:agentic coding,使用来自于 SWE-Agent 的测试集 Multi-SWE-Bench,
加入以后前15变化如下




模型
旧版排名
新版排名
名次变化*




o3 High
1
1



Claude 4 Opus Thinking
2
2



o3 Medium
3
5
↓ 2


Claude 4 Sonnet Thinking
4
3
↑ 1


Gemini 2.5 Pro Preview (2025-05-06)
5
4
↑ 1


o4-Mini High
6
6



DeepSeek R1 (2025-05-28)
7
7



Gemini 2.5 Pro Preview (2025-03-25)
8

已退出榜单/无法测量


Claude 3.7 Sonnet Thinking
9
8...