羽织 (@Lianues) 在 gemini-3-pro=lithiumflow，召回率只有2.5pro的1/3，实际写代码完全不能用中发帖直接上图吧，测试了一下3p的大海捞针曲线，可以发现基本上和lithiumflow还有o一串的曲线稳合，说明之前在lmarena竞技场的l和o一串模型就是3p的很新的一个检查点或者微调实际用起来也一样，超过20-30k后，就很容易一直报diff失败了，召回率很烂从曲线来看，只有2.5pro的1/3水平（图里的上下文只表示测试环境，不等于实际体验，但相对关系和曲线走势还是有意义的）但是3pro在其有效上下文，也就是召回率为100%时的表现还是要比2.5pro高太多了这也是为什么各种看各种推特的烂炒3p怎么怎么好，因为他们都是只发一句提示词，输入上下文可能连10k都没有，完全体现不出模型的注意力/召回率但是吧，你召回率只有2.5p的1/3，那还怎么用啊，好能力被上下文拉了总结：模型能力出色，但是注意力巨烂，完全是大退步

羽织 (@Lianues) 在 gemini-3-pro=lithiumflow，召回率只有2.5pro的1/3，实际写代码完全不能用中发帖

直接上图吧，测试了一下3p的大海捞针曲线，可以发现基本上和lithiumflow还有o一串的曲线稳合，说明之前在lmarena竞技场的l和o一串模型就是3p的很新的一个检查点或者微调 
实际用起来也一样，超过20-30k后，就很容易一直报diff失败了，召回率很烂 
从曲线来看，只有2.5pro的1/3水平（图里的上下文只表示测试环境，不等于实际体验，但相对关系和曲线走势还是有意义的） 
但是3pro在其有效上下文，也就是召回率为100%时的表现还是要比2.5pro高太多了 
这也是为什么各种看各种推特的烂炒3p怎么怎么好，因为他们都是只发一句提示词，输入上下文可能连10k都没有，完全体现不出模型的注意力/召回率 
但是吧，你召回率只有2.5p的1/3，那还怎么用啊，好能力被上下文拉了 
总结：模型能力出色，但是注意力巨烂，完全是大退步。谷歌经典整数必炸 
 [gemini-c(1)] 
[...