@clow7280 在 对镜举手问题,国产模型几乎全军覆没,GPT也没能幸免 中发帖
在“50米洗车”问题之后,对镜举手问题成为了新的一轮大模型的思维能力测试。
趁着Gemini 3.1 Pro的发布,对最近发布的大模型使用相同提示词进行一轮测试,结果令人咋舌。
——
测试方法:
[Snipaste_2026-02-20_11-25-25]
使用 openrouter 平台的 API 对话实现,所有参数均使用默认,不添加额外的系统提示词
第一轮不启用推理(对于默认启用推理的模型,设置推理强度为最小)
第二轮启用最高程度的推理
每轮使用相同的的提示词测试三次,取最稳定
——
测试结果:
[Snipaste_2026-02-20_11-33-23]
国产模型几乎全军覆没,甚至使用最高强度的推理,Qwen 3.5 Plus 在不使用推理时反而正确率更高
GPT 5.2 的测试结果不稳定。和国产模型不一样的是,它貌似是不屑于花费更多的 token 来思考这...