Candy 在 OpenAI发布新代码Benchmark：Sonnet最佳，赚了40万美元中发帖SWE-Lancer，主要用于评估大型语言模型在真实自由职业软件工程任务中的能力

Candy 在 OpenAI发布新代码Benchmark：Sonnet最佳，赚了40万美元中发帖

SWE-Lancer，主要用于评估大型语言模型在真实自由职业软件工程任务中的能力。它汇集了约1,488个在Upwork上真实发布、累计价值100万美元的任务，这些任务主要包括： 

需要生成代码补丁解决问题的IC SWE任务
要求模型在多个解决方案中挑选最佳方案的管理类任务。

与之前的标准相比，SWE-Lancer有以下几个不同点： 
• 它使用真实的任务，任务的经济价值直接反映了真实难度，而不是理论难度。 
• 标准不仅考查模型解决代码问题的能力，还评估其在管理任务中（如评审和选择最佳方案）的决策能力。 
主要的测试结果显示，当前最好的模型——Claude 3.5 Sonnet，在IC SWE任务上的pass@1为26.2%，在管理任务上为44.9%。在SWE-Lancer Diamond集上，它总共赚到了约20.8万美元，而在全数据集上，其收益超过40万美元（满分100万美元）。 
...