蒜 (@Syferie)GLM-4.5 实力如何?多维度测评,一篇回答你的疑惑! 中发帖

以下部分问题搜集于网络中并进行了总结,其中多道数理能力测试题目源于站内汇总帖结果为将每个问题使用官方的API,去亲自实测得到。【长期更新Wiki】语言模型区分题库:主要用来区分语言模型,也能测试逻辑能力 
问题一:生活常识推理

8米长的竹竿能否通过一个高4米、宽3米的门?

结果:思考11 秒,回答为不能,错误,进行了复杂的空间对角线计算,忽略了可以横向通过的简单情况。
问题二:数学逻辑谜题

使用任何数学符号,但不能改变数字顺序,如何让等式 6 5 4 1 = 24 成立?

结果:思考 1000 秒+,回答为(6 - 5) × 4! × 1 = 24 ,正确。但是整体思考耗时有时多达十几分钟,穷举了上百种解决。
问题三:密码逻辑推理

根据几组数字(318、379、863、421)及其对应的提示(如"一个号码正确且位置正确"),推断出正确的三位数密码。

结果:回答为...