@jcc 在一次简单任务下，gpt-5.5和glm-5.1的对比实测，总觉得用不下去gpt-5.5 中发帖背景：项目中只使用AGENTS.md，不存在CLAUDE.md

@jcc 在一次简单任务下，gpt-5.5和glm-5.1的对比实测，总觉得用不下去gpt-5.5 中发帖

背景： 
项目中只使用AGENTS.md，不存在CLAUDE.md。本次测试没有使用skill和工作流，就是简单的提示词。glm-5.1使用claude code，使用官方订阅。gpt-5.5使用codex，思考深度使用xhigh，使用站内的公益的额度 
提示词： 
“帮我梳理一下前端的e2e目前是怎么实现的？每次有新需求的时候，如果需要某个场景的e2e，一般需要怎么做？流程是什么样的？每次的e2e资产怎么保存？后续怎么复用？” 
执行结果： 
glm-5.1 
 [image] 
 [image] 
gpt-5.5 
 [image] 
这个结果科学吗？gpt-5.5的输出感觉就是一坨啊 
是我用的不对还是渠道不对？感觉用不下去一点