max (@Limitee)关于Gemini-3-pro-Deepthink的一些测试 中发帖

Gemini上线了DeepThink的新模型(base为Gemini-3-pro,以下简称Gemini-DT)我们进行了一些简单测试 


摘选了Arto·Inkala给出的数独清单中的几道题目测试
我们想采用纯CoT对模型的推理进行测试,在之前的测试中Gemini-DT调用工具十分积极(可通过模型导出的CoT进行分析得到)


典型的,如过对于数独/棋类等等测试题目,模型会调用代码执行给出答案,在加以限定词的情况下



Test1:
[AI-killer-application]


USER_PROMPT


OUTPUT


COT



Test2:
[AI-broken-brick]


USER_PROMPT


OUTPUT


COT


显然Gemini-DT都找到了唯一解,从COT中观察,没有代码执行的痕迹,至于他给出的解题步骤却难以理解,。
当然,我们也测...