珈蓝 狮子 (@lionsky)[锐评]Gemini 3.1 pro大量系统测试已经结束。 中发帖

先说结论,gemini 3.1 pro,它确实超越了Gemini 3 pro (满血时期),成为了我目前心目中上限最高的模型。 
但是它的问题愈发明显。
1.它更加依赖gemini原生的 “user” | “model” | “tool” 字段,对system,assistant,user这套,相比3pro更加水土不服。
我个人写了一个上下文数组转化器,并且刻意把vcptool callback独立到tool数组而不是assistant数组,可以明显感受到智力的提升,输出的更加稳固。
也就是对于systemInstruction这个参数,3.1p远比3p要敏感的多。
2.对于thoughtSignature机制的依赖。这也是大家最诟病的,强制思维链哈希上下文一致性传递数组校验。
就结论而言,它对这个字段的依赖性比3pro略有下降,3pro一旦没有这个字段的回传,非常容易胡言乱语。...