奶油话梅糖 (@Huameitang)AI 搜索能力自测报告:KIMI 中发帖

挠头.jpg 
[image]
第一类是技术类问题,例如:
“请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景,并给出权威来源”

第二类是时效类问题,例如:
“请查询Grok当前最新版本、发布时间和主要能力变化”

“济南天桥在维修吗”

“我从大观园坐公交车去济南市动物园,应该坐几路车”

结合一类二类的评价:




对象
来源专业性
准确性
时效性
可验证性
简评




Kimi
3.4
3.0
3.2
3.1
比豆包更重视引用和来源标注,标准类问题表现较好;但在 Grok 版本、公交实时路线这类强时效问题上仍会混入错误或未联动信息



Kimi 的问题:
同样会在强时效问题上失误。它知道天桥施工和 14 条公交线路调整,但在“大观园到动物园公交”里仍推荐 K15、K58、K5 等线路,没把施工影响合并进去
Grok 版本题里还出现“200 ...