Nectivelle 在 Opus 4.6 确实变拉了 准确率降低 幻觉率增高 中发帖
以下内容翻译自 BridgeMind 发布的帖子
“CLAUDE OPUS4.6 被削弱了。
BridgeBench 刚刚证明了这一点。
上周,Claude Opus4.6 在幻觉基准测试中排名第2,准确率达到83.3%。
今天对 Claude Opus4.6进行重新测试后,它在排行榜上跌至第10位,准确率仅为68.3%。
幻觉率增加了98%。
bridgebench.ai 刚刚确认,Claude Opus4.6 的推理能力已被降低,已经被削弱了。”
[image]