@fengchris 在 新基准测试 DeepSWE 出炉 长时coding任务表现 gpt-5.5 登顶 中发帖
推源:https://x.com/serenaa_ge/status/2059308218564890875
官方博客:DeepSWE
[image]
目前测试的模型排行榜:
[image]
[image]
[image]
[image]
gemini-3.5-flash得分不如gpt 但是贵