@blacksein 在 swe-rebench 25.12成绩公布 gemini 3 flash preview居然这么强 中发帖
首先叠个甲
这个测试榜单的结果就是在随机选择的github issue/pr中哪些模型完成的比较好。
但是因为测试数据集有限,所以并不能代表模型真实能力,最多只是部分编码能力的参考。
网址:
12月
37个仓库里的48个在12月产生的问题
排名:
[image]
前10:
Rank
Model
Resolved Rate (%)
Resolved Rate SEM (±)
Pass@5 (%)
Cost per Problem ($)
Tokens per Problem
Cached Tokens (%)
1
Claude Opus 4.5
63.3%
1.41%
79.2%
$1.22
1,449,298
95.2%
2
gpt-5.2-2025-12-11-xhigh
61.5%
1.21%
70.8%
$1.46
1,823,287
67...