Megasoft (@zhong_little) 在 程序编译任务测试基准 CompileBench 中发帖
看惯了前端测试,不如也来看看 CompileBench,一个面向程序编译任务的测试基准,考察 llm 处理现实软件编译可能存在的依赖地狱、遗留工具链或奇怪的编译错误等任务处理能力
claude 依旧遥遥领先,a社到底怎么喂出来的这么个编程怪
gemini 这次有点乏力了,2.5-pro 都挤不进前 20 名,不知道那个 kingfall 怎么样,gemini3 你快出来吧
grok-4 竟然还可以,能挤进前十,老马虽老,尚能饭矣
国产模型进入中游及格线,ds/kimi/glm/qwen 在列,来日可期
[PixPin_2025-10-23_10-55-25]
curl-ssl 编译难度居然这么大
[Image_2025-10-23_11-06-06_sw5w0lft.ztr]