🐟 (@stevessr) 在 自然语言自动编码器 | Anthoropic 中发帖
在过去几年里,我们开发了一系列工具(如稀疏自编码器和归因图),以更好地理解激活。这些工具教会了我们很多,但它们本身并不代表一切------它们的输出仍然是复杂的对象,受过训练的研究者需要仔细解读。
今天,我们介绍一种理解激活的方法,它本身就有说话力------字面意义上的。我们的方法自然语言自编码器(NLAs)将激活转换为我们可以直接阅读的自然语言文本。例如:当被要求完成一对联时,NLAs会展示Claude提前计划可能的押韵。