Cybertronmt 在 GLM-5/Minimax M2.5/Kimi K2.5 在CC里的实战能力排名中发帖有网友整了一个开源的评测榜单：https://sanityboard.lr7.dev/ 就是让模型在Codex CLI/Droid/Claude Code/OpenCode里修复一系列问题，看修复的正确率 [截屏2026-02-12 10.55.14] 目前看来还是GPT-5.3 Codex最强，出乎意料的是GLM-5排名很靠后，我截图都截不到

Cybertronmt 在 GLM-5/Minimax M2.5/Kimi K2.5 在CC里的实战能力排名中发帖

有网友整了一个开源的评测榜单：https://sanityboard.lr7.dev/ 
就是让模型在Codex CLI/Droid/Claude Code/OpenCode里修复一系列问题，看修复的正确率 
 [截屏2026-02-12 10.55.14] 
目前看来还是GPT-5.3 Codex最强，出乎意料的是GLM-5排名很靠后，我截图都截不到。不过作者解释说是找不到稳定的API，可以过几天看看