@bb_aa 在 都2026年了,ai的测评标准该更新了 中发帖
现在随便出个新模型都是霸榜,但用来用去在生产力方面依然只有claude和gpt选择。跑分没输过,体验没赢过。事实上,现在测试常用的那些天气卡牌,弹跳小球根本不能体现ai的能力,只有在生产环境下对复杂系统的理解能力才是检验ai能力的试金石。基本上国产ai都一个样,做一个小功能很ok,一旦在真实复杂的环境中使用,立马变成瞎子,开始瞎几把乱改。前段时间,重构了一个项目,让glm和gpt帮我验收。glm几分钟就完成了,基本上就是扫了一下接口,说了一下哪些地方内容有缺少。gpt直接跑了几个小时,从整个系统的设计到输出参数的格式问题洋洋洒洒的写了一大篇。两者在质量上根本没法比。只能说国产ai还有很长的路要走,期待deepseek的发力了 😀