Carlxlx 在 一个测试模型数学能力的简单问题 中发帖
假设我要玩扑克牌比大小,只有1-13四个花色一共52张牌,也就是去除大小王 玩比小,谁小谁赢,但是如果一样算庄家赢
现在我是玩家,我的获胜概率是多少?或者说我的数学期望是多少?
我问了一圈,结果如下
[默认话题]
[默认话题2]
[默认话题3]
从结果来看,这年头没有思考的模型已经不适合做数学题了
我用的gemini和claude是官方API,不存在作假可能;o1-pro用的是别人的逆向(本人囊中羞涩 😭)
o1-pro回答的最好,一步一步的分解的很明白。
不过没想到gemini-2.0-flash-thinking-exp-1219也可以,不过我试了几遍,有的时候gemini会更改他的答案,看来输出不太稳定
看起来以后没有思考的大模型已经不适应数学题了,连claude都这样,更别提别的模型了
最后,有人数学比较好,能人工验证一下准确性吗?