zjz (@zj.z) 在 【猜测】Gemini 3 pro召回率下降?可能是上下文错误引入思考预算,思考截断导致的 中发帖
以下基于antigravity的最新版本,使用的模型是Gemini 3 pro high(low也有相同效果)
做了些什么?
做了类似的大海捞针实验,因为没有API条件,现在antigravity中做
我按照另一个佬友说的,80k文本中,生成40个随机数,每次都能稳定找到前10个。
为什么会这样?
经过排查,包括Gemini自身的思考过程、寻找截断的位置,大概是20k左右会发生截断
Gemini 3pro似乎把大海捞针的内容,引入了思考预算,导致撑爆了思考预算长度
由于Gemini一直都隐藏真实的思考过程,而是给出思考总结,是否为这个原因很难猜测了
一些小启示?
对于大海捞针类似的测试,如果给出测试文件和较好的提示词,Gemini倾向于直接使用工具,例如re/grep,它100%能找对
对于coding来说,不要用太多的全局提示词。个人体会:3 pro不需要...