@bb_aa 在都2026年了，ai的测评标准该更新了中发帖现在随便出个新模型都是霸榜，但用来用去在生产力方面依然只有claude和gpt选择

@bb_aa 在都2026年了，ai的测评标准该更新了中发帖

现在随便出个新模型都是霸榜，但用来用去在生产力方面依然只有claude和gpt选择。跑分没输过，体验没赢过。事实上，现在测试常用的那些天气卡牌，弹跳小球根本不能体现ai的能力，只有在生产环境下对复杂系统的理解能力才是检验ai能力的试金石。基本上国产ai都一个样，做一个小功能很ok,一旦在真实复杂的环境中使用，立马变成瞎子，开始瞎几把乱改。前段时间，重构了一个项目，让glm和gpt帮我验收。glm几分钟就完成了，基本上就是扫了一下接口，说了一下哪些地方内容有缺少。gpt直接跑了几个小时，从整个系统的设计到输出参数的格式问题洋洋洒洒的写了一大篇。两者在质量上根本没法比。只能说国产ai还有很长的路要走，期待deepseek的发力了 😀