ZHEN (@zhenhuang) 在 GPT-5.2-Pro vs Gemini-3-pro-deepthink 评测转载: 两者在严谨数学证明层面仍然存在比较多的问题中发帖这里有对佬们平常能接触到的研究级主流模型 GPT-5.2-Pro 以及 Gemini-3-pro-deepthink的简单评测

ZHEN (@zhenhuang) 在 GPT-5.2-Pro vs Gemini-3-pro-deepthink 评测转载: 两者在严谨数学证明层面仍然存在比较多的问题中发帖

这里有对佬们平常能接触到的研究级主流模型 GPT-5.2-Pro 以及 Gemini-3-pro-deepthink的简单评测。（但只是定性观察，不存在打分或者排名或者胜负结论） 
简单而言，使用两者完成第一手证明还是存在较大的抽卡和幻觉。这和我平常使用GPT-5.2-Pro讨论科研问题的感受是一样的；有时突然不知道哪里冒出来的推导以及结论，但是仔细推导会发现不够严谨（或者说漏了条件），好像模型是通过某种联想得到的结论而不是严格reasoning. Gemini-3-pro-deepthink我没有尝试过，但是就gemini系列模型的幻觉来看，或许还要比GPT更差。 
在文章中也确实是这么讲的，Gemini相比于GPT会更加笃定地给出所谓的完整证明（但实际上中间会存在很多严重幻觉和漏洞）；而GPT更加保守以及严谨，遇到真的不会的问题，就承认自己确实无法完成，并且给出能够完成的部分证明. ...