@blacksein 在 swe-rebench 25.12成绩公布 gemini 3 flash preview居然这么强中发帖首先叠个甲这个测试榜单的结果就是在随机选择的github issue/pr中哪些模型完成的比较好

@blacksein 在 swe-rebench 25.12成绩公布 gemini 3 flash preview居然这么强中发帖

首先叠个甲 
这个测试榜单的结果就是在随机选择的github issue/pr中哪些模型完成的比较好。 
但是因为测试数据集有限，所以并不能代表模型真实能力，最多只是部分编码能力的参考。 

网址： 

12月 
37个仓库里的48个在12月产生的问题 
排名： 
 [image] 
前10: 




Rank
Model
Resolved Rate (%)
Resolved Rate SEM (±)
Pass@5 (%)
Cost per Problem ($)
Tokens per Problem
Cached Tokens (%)




1
Claude Opus 4.5
63.3%
1.41%
79.2%
$1.22
1,449,298
95.2%


2
gpt-5.2-2025-12-11-xhigh
61.5%
1.21%
70.8%
$1.46
1,823,287
67...