羽织 (@Lianues) 在 gemini-3-pro=lithiumflow,召回率只有2.5pro的1/3, 实际写代码完全不能用 中发帖
直接上图吧,测试了一下3p的大海捞针曲线,可以发现基本上和lithiumflow还有o一串的曲线稳合,说明之前在lmarena竞技场的l和o一串模型就是3p的很新的一个检查点或者微调
实际用起来也一样,超过20-30k后,就很容易一直报diff失败了,召回率很烂
从曲线来看,只有2.5pro的1/3水平(图里的上下文只表示测试环境,不等于实际体验,但相对关系和曲线走势还是有意义的)
但是3pro在其有效上下文,也就是召回率为100%时的表现还是要比2.5pro高太多了
这也是为什么各种看各种推特的烂炒3p怎么怎么好,因为他们都是只发一句提示词,输入上下文可能连10k都没有,完全体现不出模型的注意力/召回率
但是吧,你召回率只有2.5p的1/3,那还怎么用啊,好能力被上下文拉了
总结:模型能力出色,但是注意力巨烂,完全是大退步。谷歌经典整数必炸
[gemini-c(1)]
[...