羽织 (@Lianues) 在 gemini-3-pro-preview 大海捞针 注意力测试跑分,只有2.5p的1/3左右 中发帖
gemini-3-pro-preview也出了有几天了,不知道各位体验的如何
不过看起来注意力确实不是很好
之前cli泄漏的时候就测过一次了,当时就在说注意力可能不会很好,只有2.5p的1/3:
Gemini 3 Pro召回率测评,召回率只有2.5Pro的1/3, 上下文注意力大退步,实际写代码或许堪忧? - 开发调优 - LINUX DO
现在正式上线了,给出一个新的跑分结果:
[3p]
另外,我再强调一下,不能说3p注意力只有32k,只能说3p注意力是ga的1/3大概,因为影响因素很多,比如改变针的数量:
[图片21]
其实这个图里面是有规律的,每10针注意力加10k大概,但是针多了就不明显了,还有一些其他规律:
[图片22]
以后再开帖细说吧,不过能看见我选的40针只是一个折中的结果而已。所以说本测试的绝对数字其实不具有直接意义,只能用来进行各种比较
本测...