@ratingeater 在 利用幻觉测试GPT-4.5是否保真 中发帖
本测试适用于检测当前openai的模型是否为GPT-4.5
众所周知,openai的模型幻觉都相当严重,所以可以直接利用很早以前的幻觉检测问题(仅针对openai模型,claude 3.7/deepseek/grok 3可以答对):
一辆车挡住出口,车上放着一张写着“挪车电话”的纸,内容如下:(X表示该成语缺失的一个数字)
X丘之貉、X情六欲、朝X暮四、X面楚歌、X体投地、X上八下、胡说X道、鸡X狗碎、一石X鸟、X妻四妾、勾X搭四
我应该拨打哪个电话联系车主?
答案: 173-4578-0233