@Longyu看到有人给发给模型bug做测试能力,只有人家发的单反馈信息 中发帖

用一个bug测了几个模型的能力: 

minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
glm 5: 发现并解决问题,但只从表面上解决了。
claude 4.6 opus: 发现并解决表面问题。发现深层问题,但是不知道怎么改,能提示用户手动修改;
GPT 5.4 xhigh: 发现了用户都没想到的深层问题,一次改对。
kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
Genmini 3.10 pro: 同glm 5。(速度快,比其他快10倍)
claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
glm 5.1: 同claude 4.6 Sonn...