孙博士 (@sunbo)2026 年的大模型可以做对了吗 中发帖

题目为: 
[image]
想测验下自己使用过的国模推理能力
deepseek-v4-pro:
[image]
kimi-k2.7:
[image]
qwen3.7-plus:
[image]
glm-5.1:
[image]
glm-5.2:
[image]
总结:
1、glm-5.2 犯了一个致命的错误, 它假定了 sum 的值“只增不减”(即单调递增), 忽略了不同线程之间可以互相覆盖(只要不小于 1,因为初始值为 0,写入值一定 ≥ 1)。
2、glm-5.1 没有大问题,具体描述细节可能有小问题,是通过从写操作 W_k 出发,根据程序顺序,W_1 必须在 W_2 之前完成,W_2 必须在 W_3 之前完成,算出了 W_2、W_3 都会 ≥ 2,证明过程没问题且给出的序列也没问题。
3、qwen3.7-plus 推广到了任意线程的三次迭代,...