CandyOpenAI发布新代码Benchmark:Sonnet最佳,赚了40万美元 中发帖

SWE-Lancer,主要用于评估大型语言模型在真实自由职业软件工程任务中的能力。它汇集了约1,488个在Upwork上真实发布、累计价值100万美元的任务,这些任务主要包括: 

需要生成代码补丁解决问题的IC SWE任务
要求模型在多个解决方案中挑选最佳方案的管理类任务。

与之前的标准相比,SWE-Lancer有以下几个不同点:
• 它使用真实的任务,任务的经济价值直接反映了真实难度,而不是理论难度​。
• 标准不仅考查模型解决代码问题的能力,还评估其在管理任务中(如评审和选择最佳方案)的决策能力。
主要的测试结果显示,当前最好的模型——Claude 3.5 Sonnet,在IC SWE任务上的pass@1为26.2%,在管理任务上为44.9%。在SWE-Lancer Diamond集上,它总共赚到了约20.8万美元,而在全数据集上,其收益超过40万美元(满分100万美元)。
...