坐忘 (@sit_forget)模型测评:GLM-5.2 大战 Claude Opus 4.8 中发帖

🤖 祖传 Bug 模型大比拼:GLM-5.2 Thinking vs Claude Opus 4.8 Max 最新实测
📊 最新模型测试战报
🚀 GLM-5.2 Thinking (ZCode 3.0):
96分。1. 解决表面问题。2. 解决深层问题。3. 发现引用的库的bug,没有改动库,没改本地代码规避库的bug。第四个发现三层bug的老师。
中间改错了一次,错误和glm-5.1相同,但自己马上意识到改错,自动回滚了。
耗时17分18秒。非常慢,不知道是不是下午的问题,中间还跳出一次人机认证。所有模型中最慢的,打破deepseek 11分钟的记录。
评分和Qwen 3.7 Max一样,96分,但太慢了,排它后面吧,给Qwen升到97分。
Claude Opus 4.8 Max (Cursor Max Mode):
100分。同GPT 5.5 xhigh(1. 解决表面问题...