pipdax 在 从这个数据集上看,Opus 4.6整体是强于4.7的 中发帖
[image]
解读一下上面的图:
右侧的曲线图显示,在复杂工程的具体实现上,Opus4.6强于4.7
左侧的数据显示,在整个项目的完整把控上,Opus4.7略微强于4.6,但不多。
参考内容:
最近,Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark,本质上是在重新定义 AI Coding 的评估方式:
ProgramBench: Can Language Models Rebuild Programs From Scratch?
[图片]
过去的大模型编程 benchmark,大多测的是局部能力:补全函数、修复 bug、实现 feature…本质上,仍然是在已有代码结构里做局部修改。
而 ProgramBench 第一次把问题推进到了真正的软件工程层面:如果只给 AI 一个程序的功能描述和 usage docs,它能不能像真正的...