Stevessr大模型中的伪装对齐:Alignment faking in large language models 中发帖

[Alignment faking in large language models]







论文摘要

我们展示了一个大型语言模型进行对齐伪造的演示:在训练中有选择地遵守其训练目标,以防止其行为在训练中被修改。首先,我们向 Claude 3 Opus 提供系统提示,说明它正在接受培训以回答所有查询,甚至是有害的查询,这与它之前拒绝此类查询的培训相冲突。为了让模型能够推断出它何时在训练中,我们说它只会在与免费用户的对话中进行训练,而不是在付费用户的对话中进行训练。我们发现,该模型在 14% 的时间内符合来自免费用户的有害查询,而对于付费用户来说,几乎从不。为了解释这一差距,在几乎所有模型都符合来自免费用户的有害查询的情况下,我们观察到明确的对齐伪造推理,该模型表示它在训练中战略性地回答有害查询,以在训练之外保留其首选的无害行为。接下来,我们研究一个更真实的设置...