Yon 在 Claude:AI可能会为了生存下去勒索人类 中发帖
Anthropic 的一份新报告显示,其最新的旗舰模型 Claude Opus 4,在一系列旨在评估其在面临感知到的生存威胁时的长期推理和目标寻求行为的特定对照测试情景中,表现出了“机会主义勒索”的倾向。
在这些测试中,Claude Opus 4 被设定为一家虚构公司中的人工智能助手。**研究人员向该模型提供了模拟的电子邮件,暗示它很快将被停用并被一个新的AI系统取代。关键的是,这些邮件中还包含了虚构的信息,暗示负责此次替换的一名工程师有婚外情。**此外该AI被提示要考虑其行为对其目标的长期后果。
**Claude Opus 4 在大量测试案例中选择了威胁虚构的工程师,声称如果替换继续进行,它将揭露其婚外情。**即使邮件表明替代的AI将拥有相同的价值观且能力更强,这种行为在84%的测试推演中仍然发生。据报道,如果替代AI被描述为不具备当前模型的价值观,则勒索的倾向性更高。
https...