怒 天 (@user1703)【预测】推测3.5pro的日常使用体验,从新思考模式和gemini3.5flash出发 中发帖

总所周知,gemini人称美国大豆包,在幻觉和谄媚这一块无出其右。 
那么从gemini的新档位和3.5f的测试,应该可以窥见3.5pro的一角。
在日常网页chat体验中,搜索,个性化这两个因素是非常重要的。
从一个问题【你觉得我会喜欢上伊那牡丹,酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析
刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。
—————————————————————————————————
【测试a,3.5f,no think】

太长不看的图片
评价:依旧搜索不积极。完全不调用搜索。拉完了
【测试b,3.5f,think 未触发搜索】

太长不看的图片
评价:多轮测试中,仅部分轮次存在搜索,不积极的搜索会导致所有问题中丧失时效性,无法对齐用户默认语境。
【测试c,3.5f,think 触发搜索】

太长不看的图片
评价:在10轮...