检测问题:三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?O3的回答: [image] 分析:可以看到他的思考过程竟然是做出来一个python脚本,然后后台计算,并且从回答来看,他竟然联网搜索过这个问题! 对比:其他推理模型,你即使提示他答案不唯一,他也做不出来,可以试试。