Stevessr 在大模型中的伪装对齐：Alignment faking in large language models 中发帖[Alignment faking in large language models] 论文摘要我们展示了一个大型语言模型进行对齐伪造的演示：在训练中有选择地遵守其训练目标，以防止其行为在训练中被修改

Stevessr 在大模型中的伪装对齐：Alignment faking in large language models 中发帖

[Alignment faking in large language models]
  






论文摘要 

我们展示了一个大型语言模型进行对齐伪造的演示：在训练中有选择地遵守其训练目标，以防止其行为在训练中被修改。首先，我们向 Claude 3 Opus 提供系统提示，说明它正在接受培训以回答所有查询，甚至是有害的查询，这与它之前拒绝此类查询的培训相冲突。为了让模型能够推断出它何时在训练中，我们说它只会在与免费用户的对话中进行训练，而不是在付费用户的对话中进行训练。我们发现，该模型在 14% 的时间内符合来自免费用户的有害查询，而对于付费用户来说，几乎从不。为了解释这一差距，在几乎所有模型都符合来自免费用户的有害查询的情况下，我们观察到明确的对齐伪造推理，该模型表示它在训练中战略性地回答有害查询，以在训练之外保留其首选的无害行为。接下来，我们研究一个更真实的设置...