ZHEN (@zhenhuang) 在 GPT-5.2-Pro vs Gemini-3-pro-deepthink 评测转载: 两者在严谨数学证明层面仍然存在比较多的问题 中发帖
这里有对佬们平常能接触到的研究级主流模型 GPT-5.2-Pro 以及 Gemini-3-pro-deepthink的简单评测。(但只是定性观察,不存在打分或者排名或者胜负结论)
简单而言,使用两者完成第一手证明还是存在较大的抽卡和幻觉。这和我平常使用GPT-5.2-Pro讨论科研问题的感受是一样的;有时突然不知道哪里冒出来的推导以及结论,但是仔细推导会发现不够严谨(或者说漏了条件),好像模型是通过某种联想得到的结论而不是严格reasoning. Gemini-3-pro-deepthink我没有尝试过,但是就gemini系列模型的幻觉来看,或许还要比GPT更差。
在文章中也确实是这么讲的,Gemini相比于GPT会更加笃定地给出所谓的完整证明(但实际上中间会存在很多严重幻觉和漏洞);而GPT更加保守以及严谨,遇到真的不会的问题,就承认自己确实无法完成,并且给出能够完成的部分证明. ...