奶油话梅糖 (@Huameitang) 在 AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比中发帖一、测试目的因发现网络上“迷信AI搜索结果”的例子越来越多，本人家里也有因为我推荐开始使用AI的亲戚朋友（比如我妈在用蚂蚁阿福、我朋友和我表妹在用豆包）本次测试主要观察不同 AI 搜索方案在真实问题下的表现，重点关注三个方面：信息来源是否专业、结论是否准确、回答是否具备可验证性测试对象包括自集成搜索能力早期和现在比较突出的：豆包网页端、Kimi 网页端还有我自己的EXA + GLM-5.1 本次测试不重点比较模型闲聊能力，而是关注它们作为“AI 搜索工具”时，能否稳定给出高质量、有来源、可追溯的答案本次测试不对问题进行过度工程化优化，因为真实用户提问往往就是模糊、口语化和带上下文缺失的

奶油话梅糖 (@Huameitang) 在 AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比中发帖

一、测试目的
因发现网络上“迷信AI搜索结果”的例子越来越多，本人家里也有因为我推荐开始使用AI的亲戚朋友（比如我妈在用蚂蚁阿福、我朋友和我表妹在用豆包） 
本次测试主要观察不同 AI 搜索方案在真实问题下的表现，重点关注三个方面：信息来源是否专业、结论是否准确、回答是否具备可验证性 
测试对象包括自集成搜索能力早期和现在比较突出的： 
豆包网页端、Kimi 网页端 
还有我自己的EXA + GLM-5.1 
本次测试不重点比较模型闲聊能力，而是关注它们作为“AI 搜索工具”时，能否稳定给出高质量、有来源、可追溯的答案 
本次测试不对问题进行过度工程化优化，因为真实用户提问往往就是模糊、口语化和带上下文缺失的。测试重点不是看 AI 能否完成精确指令，而是看它在自然提问下的理解能力和信源选择能力，测试时均使用快速模式+搜索能力，尽量模仿第一次下载安装使用模型的情况 

为什么没有DeepSe...