怒天 (@user1703) 在【预测】推测3.5pro的日常使用体验，从新思考模式和gemini3.5flash出发中发帖总所周知，gemini人称美国大豆包，在幻觉和谄媚这一块无出其右

怒天 (@user1703) 在【预测】推测3.5pro的日常使用体验，从新思考模式和gemini3.5flash出发中发帖

总所周知，gemini人称美国大豆包，在幻觉和谄媚这一块无出其右。 
那么从gemini的新档位和3.5f的测试，应该可以窥见3.5pro的一角。 
在日常网页chat体验中，搜索，个性化这两个因素是非常重要的。 
从一个问题【你觉得我会喜欢上伊那牡丹，酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析 
刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。 
————————————————————————————————— 
【测试a，3.5f，no think】 
▶ 
太长不看的图片
评价：依旧搜索不积极。完全不调用搜索。拉完了 
【测试b，3.5f，think 未触发搜索】 
▶ 
太长不看的图片
评价：多轮测试中，仅部分轮次存在搜索，不积极的搜索会导致所有问题中丧失时效性，无法对齐用户默认语境。 
【测试c，3.5f，think 触发搜索】 
▶ 
太长不看的图片
评价：在10轮...