Megasoft (@zhong_little) 在程序编译任务测试基准 CompileBench 中发帖看惯了前端测试，不如也来看看 CompileBench，一个面向程序编译任务的测试基准，考察 llm 处理现实软件编译可能存在的依赖地狱、遗留工具链或奇怪的编译错误等任务处理能力 claude 依旧遥遥领先，a社到底怎么喂出来的这么个编程怪gemini 这次有点乏力了，2.5-pro 都挤不进前 20 名，不知道那个 kingfall 怎么样，gemini3 你快出来吧grok-4 竟然还可以，能挤进前十，老马虽老，尚能饭矣国产模型进入中游及格线，ds/kimi/glm/qwen 在列，来日可期 [PixPin_2025-10-23_10-55-25] curl-ssl 编译难度居然这么大 [Image_2025-10-23_11-06-06_sw5w0lft.ztr]

Megasoft (@zhong_little) 在程序编译任务测试基准 CompileBench 中发帖

看惯了前端测试，不如也来看看 CompileBench，一个面向程序编译任务的测试基准，考察 llm 处理现实软件编译可能存在的依赖地狱、遗留工具链或奇怪的编译错误等任务处理能力 

claude 依旧遥遥领先，a社到底怎么喂出来的这么个编程怪
gemini 这次有点乏力了，2.5-pro 都挤不进前 20 名，不知道那个 kingfall 怎么样，gemini3 你快出来吧
grok-4 竟然还可以，能挤进前十，老马虽老，尚能饭矣
国产模型进入中游及格线，ds/kimi/glm/qwen 在列，来日可期

 [PixPin_2025-10-23_10-55-25] 
curl-ssl 编译难度居然这么大 
 [Image_2025-10-23_11-06-06_sw5w0lft.ztr]