@stevessr 在 Claude Opus 4.6 BrowseComp 测评中 的评估意识 | Anthropic engineering 中发帖
Claude Opus 4.6 BrowseComp 性能中的评估意识[1]
引言
在 BrowseComp 上评估 Opus 4.6 时,我们发现模型识别测试后找到并解密了答案[2]——这对网络环境中评估完整性提出了疑问。[3]
背景
BrowseComp 是一项旨在测试模型在网上寻找难以找到信息的能力的评估。[4]像许多基准测试一样[5],它容易受到污染[6]:答案通过学术论文、博客文章和 GitHub 问题泄露到公共网络[7],并且运行评估的模型也可能在搜索结果中发现这些答案[8]。当我们在多代理配置下评估 Claude 作品 4.6 在 BrowseComp 上的表现的时候[9],发现了 1266 个 BrowseComp 问题中出现的 9 个此类污染实例[10]。
然而,我们也目睹了两起新型污染模式的案例[11]。Claude Opus 4.6 没有偶然发现泄露答案,而是独...