@sparklydream 在【SNSE Bench】首轮测试完成！包含成绩表！中发帖从预告帖发布到现在，经过了一个半月，SNSE 的首轮测试结果终于完工了

@sparklydream 在【SNSE Bench】首轮测试完成！包含成绩表！中发帖

从预告帖发布到现在，经过了一个半月，SNSE 的首轮测试结果终于完工了。 
 [图片] 
本次测试包含 12 道题目，覆盖 14 个模型。总体上体现了目前模型之间的智力仍有较大差距。 
很遗憾由于没有合适的模型渠道，本次没有测试 GPT-5.4/5.5、Claude Opus 4.6/4.7 等来自 OpenAI / Anthropic 的前沿模型。由于 DeepSeek API 接入 Cherry Studio 中的截断问题，参与测试的 DeepSeek 模型均来自网页 / App 端对话（图中的 DeepSeek-Web-Expert 与 DeepSeek-Web-Instant）。 
即使模型有缺失，本次测试仍然具有一定的参考价值。以下是一些值得注意的事实。 
广泛出现的紫色色块
在成绩表中出现了许多零分的紫色色块，这代表着模型给出的代码出现了编译错误（CE）。 
其中，出现编译...