途川 (@litjohn) 在 Gemini 3.1 Pro 确实强 中发帖
强在何处?强在脑子。
以 ABC447G 为例。3 flash 无法思考出正解(当然这里很可能是 3 flash 降智了),而 3.1 Pro 给出了比官方解法还要简单的确定性做法。
我学习了随机化做法,debug 的时候,3.1 Pro 的注意力(洞察力,不指 attention)明显更强于 3 系的两个模型,能发现隐蔽的漏洞。包括位掩码全集打错了一个字符,初始化的最小值(负无穷)不够小等等。