@Leon01 在 实时搜索哪家强?AI搜索产品大比拼! 中发帖
(本帖子预计会持续更新,以加入更多模型)
现在AI搜索产品越来越多,模型返回真实可信的内容很重要。那么多家AI产品,到底谁的幻觉更低?
先来一个新鲜热乎的问题:
openai12天发布会每天发布了什么
看似简单,但是实际上有几个“坑”:
发布会到现在还没开完,AI可能会编造后几天的内容
一些媒体反复洗稿,内容不一定可信
可能将网友预测的内容当成了已经发生的内容
所以,高质量的信息源、模型对信息的判断等,在实时搜索类产品中都是至关重要的。
接下来用一个表格总结一下模型的表现能力。
【给星星的标准】
回答是否正确、有效
回答是否混淆真实的虚假的信息
回答是否有给出每天的时间,并正确排序
回答是否详细,排版是否美观
【叠甲】
打分是主观评价!!(比如打一颗星很重要的原因是令我出乎意料,大跌眼镜)
当前只有一个测试问题,可能不全面
由于模型输出的随机性,可能每个人的测...