珈蓝狮子 (@lionsky) 在 [锐评]Gemini 3.1 pro大量系统测试已经结束

珈蓝狮子 (@lionsky) 在 [锐评]Gemini 3.1 pro大量系统测试已经结束。中发帖

先说结论，gemini 3.1 pro，它确实超越了Gemini 3 pro （满血时期），成为了我目前心目中上限最高的模型。 
但是它的问题愈发明显。 
1.它更加依赖gemini原生的 “user” | “model” | “tool” 字段，对system，assistant，user这套，相比3pro更加水土不服。 
我个人写了一个上下文数组转化器，并且刻意把vcptool callback独立到tool数组而不是assistant数组，可以明显感受到智力的提升，输出的更加稳固。 
也就是对于systemInstruction这个参数，3.1p远比3p要敏感的多。 
2.对于thoughtSignature机制的依赖。这也是大家最诟病的，强制思维链哈希上下文一致性传递数组校验。 
就结论而言，它对这个字段的依赖性比3pro略有下降，3pro一旦没有这个字段的回传，非常容易胡言乱语。...