ll (@dmatut)claude4.8和gpt5.5真实项目对比以及毛病 中发帖

[3b8ac43c968c814c8cc09ce0c1e53130] 
看图能大概看到长任务的表现 包括 后续写文档 - claude 的文档问题更多 / 更晚收敛。 收敛轮(round-2)gpt
的文档一审即净;不收敛的 3 处全在 claude
文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2
处是 claude 自评说"已闭"、gpt 才抓出来的——说明 claude 的自评可靠性偏低

机械修订没绞干净。


gpt 更严谨:它的可追溯审计是带 file:line 的全矩阵(16
条),自己的文档改一轮就干净。
但 claude 有个真强项:那三条孤儿需求(gpt 矩阵标"已覆盖"、其实没人做)是
claude 抓出来的——它对"功能有没有落地"更敏感。
最大的量,还是我的顺序锅(影响两份文档),不该全算到他们头上。

一句话:c...