@Longyu 在看到有人给发给模型bug做测试能力，只有人家发的单反馈信息中发帖用一个bug测了几个模型的能力： minimax 2.7: 未发现问题

@Longyu 在看到有人给发给模型bug做测试能力，只有人家发的单反馈信息中发帖

用一个bug测了几个模型的能力： 

minimax 2.7: 未发现问题。提示到具体代码行，仍然不承认有问题。
mimo-v2-pro: 怀疑到具体行数，这个位置是对的，但最终判定不是bug。
glm 5: 发现并解决问题，但只从表面上解决了。
claude 4.6 opus: 发现并解决表面问题。发现深层问题，但是不知道怎么改，能提示用户手动修改；
GPT 5.4 xhigh: 发现了用户都没想到的深层问题，一次改对。
kimi-2.5：未发现问题。然后提示代码行号，态度转变发现并解决表面问题。同时发现深层问题，但改错了。（速度很慢，比GTP还慢）
Genmini 3.10 pro: 同glm 5。（速度快，比其他快10倍）
claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题，但改错了。和kimi-2.5错的一样。
glm 5.1: 同claude 4.6 Sonn...