max (@Limitee) 在关于Gemini-3-pro-Deepthink的一些测试中发帖Gemini上线了DeepThink的新模型（base为Gemini-3-pro，以下简称Gemini-DT）我们进行了一些简单测试摘选了Arto·Inkala给出的数独清单中的几道题目测试我们想采用纯CoT对模型的推理进行测试，在之前的测试中Gemini-DT调用工具十分积极（可通过模型导出的CoT进行分析得到）典型的，如过对于数独/棋类等等测试题目，模型会调用代码执行给出答案，在加以限定词的情况下 Test1： [AI-killer-application]▶ USER_PROMPT▶ OUTPUT▶ COTTest2: [AI-broken-brick]▶ USER_PROMPT▶ OUTPUT▶ COT显然Gemini-DT都找到了唯一解，从COT中观察，没有代码执行的痕迹，至于他给出的解题步骤却难以理解，

max (@Limitee) 在关于Gemini-3-pro-Deepthink的一些测试中发帖

Gemini上线了DeepThink的新模型（base为Gemini-3-pro，以下简称Gemini-DT）我们进行了一些简单测试 


摘选了Arto·Inkala给出的数独清单中的几道题目测试
我们想采用纯CoT对模型的推理进行测试，在之前的测试中Gemini-DT调用工具十分积极（可通过模型导出的CoT进行分析得到）


典型的，如过对于数独/棋类等等测试题目，模型会调用代码执行给出答案，在加以限定词的情况下 



Test1： 
[AI-killer-application]

▶ 
USER_PROMPT

▶ 
OUTPUT

▶ 
COT



Test2: 
[AI-broken-brick]

▶ 
USER_PROMPT

▶ 
OUTPUT

▶ 
COT


显然Gemini-DT都找到了唯一解，从COT中观察，没有代码执行的痕迹，至于他给出的解题步骤却难以理解，。 
当然，我们也测...