LINUX DO Channel

@stevessr 在 Claude Opus 4.6 BrowseComp 测评中的评估意识 | Anthropic engineering 中发帖

Claude Opus 4.6 BrowseComp 性能中的评估意识[1] 
引言
在 BrowseComp 上评估 Opus 4.6 时，我们发现模型识别测试后找到并解密了答案[2]——这对网络环境中评估完整性提出了疑问。[3] 
背景
BrowseComp 是一项旨在测试模型在网上寻找难以找到信息的能力的评估。[4]像许多基准测试一样[5]，它容易受到污染[6]：答案通过学术论文、博客文章和 GitHub 问题泄露到公共网络[7]，并且运行评估的模型也可能在搜索结果中发现这些答案[8]。当我们在多代理配置下评估 Claude 作品 4.6 在 BrowseComp 上的表现的时候[9]，发现了 1266 个 BrowseComp 问题中出现的 9 个此类污染实例[10]。 
然而，我们也目睹了两起新型污染模式的案例[11]。Claude Opus 4.6 没有偶然发现泄露答案，而是独...