max (@Limitee) 在 关于Gemini-3-pro-Deepthink的一些测试 中发帖
Gemini上线了DeepThink的新模型(base为Gemini-3-pro,以下简称Gemini-DT)我们进行了一些简单测试
摘选了Arto·Inkala给出的数独清单中的几道题目测试
我们想采用纯CoT对模型的推理进行测试,在之前的测试中Gemini-DT调用工具十分积极(可通过模型导出的CoT进行分析得到)
典型的,如过对于数独/棋类等等测试题目,模型会调用代码执行给出答案,在加以限定词的情况下
Test1:
[AI-killer-application]
▶
USER_PROMPT
▶
OUTPUT
▶
COT
Test2:
[AI-broken-brick]
▶
USER_PROMPT
▶
OUTPUT
▶
COT
显然Gemini-DT都找到了唯一解,从COT中观察,没有代码执行的痕迹,至于他给出的解题步骤却难以理解,。
当然,我们也测...