@jcc 在 一次简单任务下,gpt-5.5和glm-5.1的对比实测,总觉得用不下去gpt-5.5 中发帖
背景:
项目中只使用AGENTS.md,不存在CLAUDE.md。本次测试没有使用skill和工作流,就是简单的提示词。glm-5.1使用claude code,使用官方订阅。gpt-5.5使用codex,思考深度使用xhigh,使用站内的公益的额度
提示词:
“帮我梳理一下前端的e2e目前是怎么实现的?每次有新需求的时候,如果需要某个场景的e2e,一般需要怎么做?流程是什么样的?每次的e2e资产怎么保存?后续怎么复用?”
执行结果:
glm-5.1
[image]
[image]
gpt-5.5
[image]
这个结果科学吗?gpt-5.5的输出感觉就是一坨啊
是我用的不对还是渠道不对?感觉用不下去一点