奶油话梅糖 (@Huameitang)AI 搜索能力自测报告:豆包、Kimi、EXA+GLM对比 中发帖

一、测试目的
因发现网络上“迷信AI搜索结果”的例子越来越多,本人家里也有因为我推荐开始使用AI的亲戚朋友(比如我妈在用蚂蚁阿福、我朋友和我表妹在用豆包)
本次测试主要观察不同 AI 搜索方案在真实问题下的表现,重点关注三个方面:信息来源是否专业、结论是否准确、回答是否具备可验证性
测试对象包括自集成搜索能力早期和现在比较突出的:
豆包网页端、Kimi 网页端
还有我自己的EXA + GLM-5.1
本次测试不重点比较模型闲聊能力,而是关注它们作为“AI 搜索工具”时,能否稳定给出高质量、有来源、可追溯的答案
本次测试不对问题进行过度工程化优化,因为真实用户提问往往就是模糊、口语化和带上下文缺失的。测试重点不是看 AI 能否完成精确指令,而是看它在自然提问下的理解能力和信源选择能力,测试时均使用快速模式+搜索能力,尽量模仿第一次下载安装使用模型的情况

为什么没有DeepSe...