狗富贵 (@touhaowanjia1)佬们,今天实测 Claude Opus 4.8,有两个数字把我惊到了。 中发帖

佬们,今天实测 Claude Opus 4.8,有两个数字把我惊到了。 
🚨 谎报率 0%,偷懒调查率 0%——史上首次。
什么意思?之前模型写完有缺陷的代码会闷不吭声,4.5 是 0.40,4.7 是 0.25,4.8 直接归零。遇到该追查的问题也不再敷衍给个错误答案。
代码硬实力: • SWE-Bench Pro 69.2%,比 GPT-5.5 高 10 个百分点 • FrontierSWE 83% 胜率登顶(从零写 PostgreSQL、重写 git) • 同样任务比 4.7 少 15% 步骤、少输出 35% token
💰 更狠的是 dynamic workflows:接到大活自动写调度脚本,拆成上百个子任务撒给一群 subagent 并行干,再派另一拨互相挑刺吵到收敛。有人用它 11 天重写 75 万行 Rust,99.8% 测试通过。
但有个坑得说:4.8 性格变「难相...