Aiden (@Syee) 在 Kimi 2.5 这一波改 Bug 表现,我真的很难评…… 中发帖
下午拿个 Java 后端的 Bug 跑了一下几家大模型,结果真的高下立判:
GPT-5.2: 思考了 10 分钟,憋出了一个改动最小的方案。
GLM-4.7: 琢磨了 3 分钟,给了个能跑通的方案,虽然不是最优解,但好歹是认真干活。
Kimi 2.5: 我还没反应过来它就开始一顿操作,定睛一看全是胡说八道。