@clow7280 在对镜举手问题，国产模型几乎全军覆没，GPT也没能幸免中发帖在“50米洗车”问题之后，对镜举手问题成为了新的一轮大模型的思维能力测试

@clow7280 在对镜举手问题，国产模型几乎全军覆没，GPT也没能幸免中发帖

在“50米洗车”问题之后，对镜举手问题成为了新的一轮大模型的思维能力测试。 
趁着Gemini 3.1 Pro的发布，对最近发布的大模型使用相同提示词进行一轮测试，结果令人咋舌。 
—— 
测试方法： 
 [Snipaste_2026-02-20_11-25-25] 

使用 openrouter 平台的 API 对话实现，所有参数均使用默认，不添加额外的系统提示词
第一轮不启用推理（对于默认启用推理的模型，设置推理强度为最小）
第二轮启用最高程度的推理
每轮使用相同的的提示词测试三次，取最稳定

—— 
测试结果： 
 [Snipaste_2026-02-20_11-33-23] 

国产模型几乎全军覆没，甚至使用最高强度的推理，Qwen 3.5 Plus 在不使用推理时反而正确率更高
GPT 5.2 的测试结果不稳定。和国产模型不一样的是，它貌似是不屑于花费更多的 token 来思考这...