Aiden (@Syee)Kimi 2.5 这一波改 Bug 表现,我真的很难评…… 中发帖

下午拿个 Java 后端的 Bug 跑了一下几家大模型,结果真的高下立判: 


GPT-5.2: 思考了 10 分钟,憋出了一个改动最小的方案。


GLM-4.7: 琢磨了 3 分钟,给了个能跑通的方案,虽然不是最优解,但好歹是认真干活。


Kimi 2.5: 我还没反应过来它就开始一顿操作,定睛一看全是胡说八道。