坐忘 (@sit_forget)用祖传BUG测试火山GLM-5.2 中发帖

先说结论,测了2次: 
第一次

能力相当于图中排名10的位置
起手就英文思考,我一看就知道完了。全部思考是英文的,回答中文。
耗时:12分54秒,中间超时了一次,发了重试。

第二次

能力等于GPT-5.5
中文思考。这次本地代码规避了引用库的bug,和GPT-5.5表现一致,比上线当天表现好。
耗时:11分30秒,一口气干完,比上线当天的17分钟快不少。

这是为何呢?
[企业微信截图_1781436663167]
模型测评:GLM-5.2 大战 Claude Opus 4.8