@sparklydream 在 【SNSE Bench】首轮测试完成!包含成绩表! 中发帖
从预告帖发布到现在,经过了一个半月,SNSE 的首轮测试结果终于完工了。
[图片]
本次测试包含 12 道题目,覆盖 14 个模型。总体上体现了目前模型之间的智力仍有较大差距。
很遗憾由于没有合适的模型渠道,本次没有测试 GPT-5.4/5.5、Claude Opus 4.6/4.7 等来自 OpenAI / Anthropic 的前沿模型。由于 DeepSeek API 接入 Cherry Studio 中的截断问题,参与测试的 DeepSeek 模型均来自网页 / App 端对话(图中的 DeepSeek-Web-Expert 与 DeepSeek-Web-Instant)。
即使模型有缺失,本次测试仍然具有一定的参考价值。以下是一些值得注意的事实。
广泛出现的紫色色块
在成绩表中出现了许多零分的紫色色块,这代表着模型给出的代码出现了编译错误(CE)。
其中,出现编译...