@Paolo 在 在某些方面幻觉真的越低越好吗 中发帖
一个边长为 30 厘米的铁立方体,在它的 8 个角上各切掉一个边长为 10 厘米的小立方体。然后,将这个处理过的铁块放入一个底面积为 2500 平方厘米的容器中,该容器原本装有 20 厘米深的水。问放入铁块后,容器中的水位是多少厘米?
从我聊天记录里翻出来的一道题。
测试了一下,只有o3,o4mini和deepseek r1能答对,2.5pro答不对
而这三个都是推理模型中幻觉最高的三个(尤其是r1,不必多说)
你们也可以自己测试一下