星野 (@XingYe16X) 在 Claude4.6Opus确认被降智了 中发帖
CLAUDE OPUS 4.6被NERFED。
BridgeBench刚刚证明了这一点。
上周,Claude Opus 4.6在幻觉基准上排名第二,准确率为83.3%。
今天,Claude Opus 4.6进行了重新测试,它在排行榜上跌至第10位,准确率仅为68.3%。
幻觉增加了98%。
bridgebench.ai剛剛證實,Claude Opus 4.6降低了推理水準並被削弱了。
[IMG_0491]