孙博士 (@sunbo) 在 2026 年的大模型可以做对了吗中发帖题目为： [image] 想测验下自己使用过的国模推理能力 deepseek-v4-pro: [image] kimi-k2.7: [image] qwen3.7-plus: [image] glm-5.1: [image] glm-5.2: [image] 总结： 1、glm-5.2 犯了一个致命的错误，它假定了 sum 的值“只增不减”（即单调递增），忽略了不同线程之间可以互相覆盖（只要不小于 1，因为初始值为 0，写入值一定 ≥ 1）

孙博士 (@sunbo) 在 2026 年的大模型可以做对了吗中发帖

题目为： 
 [image] 
想测验下自己使用过的国模推理能力 
deepseek-v4-pro: 
 [image] 
kimi-k2.7: 
 [image] 
qwen3.7-plus: 
 [image] 
glm-5.1: 
 [image] 
glm-5.2: 
 [image] 
总结： 
1、glm-5.2 犯了一个致命的错误， 它假定了 sum 的值“只增不减”（即单调递增）， 忽略了不同线程之间可以互相覆盖（只要不小于 1，因为初始值为 0，写入值一定 ≥ 1）。 
2、glm-5.1 没有大问题，具体描述细节可能有小问题，是通过从写操作 W_k 出发，根据程序顺序，W_1 必须在 W_2 之前完成，W_2 必须在 W_3 之前完成，算出了 W_2、W_3 都会 ≥ 2，证明过程没问题且给出的序列也没问题。 
3、qwen3.7-plus 推广到了任意线程的三次迭代，...