@bige0123 在 SWE-Bench Pro:新的软件开发benchmark 中发帖
[!check] Scale AI更新了SWE-Bench Pro
这是针对之前SWE-Bench Verified也开始趋向饱和的情况
[!important] Verified 与 SWE-Bench Pro 对比
[image]
SWE-Bench Pro (Public Dataset)
[image]
SWE-Bench Pro (Commercial Dataset)
[image]
[!info]下面是详细介绍
SWE-Bench Pro 是一个旨在为软件工程领域的 AI 代理提供严谨、真实评估的基准测试。它通过解决以下四个关键挑战,旨在弥补现有基准测试的诸多局限性:
Overview
SWE-Bench Pro 是一个旨在为软件工程领域的 AI 代理提供严谨、真实评估的基准测试。它通过解决以下四个关键挑战,旨在弥补现有基准测试的诸多局限性: ...