Bunn (@BunnHack) 在 Anthropic最新实验显示：教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机中发帖Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》，首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会用“恒等hack”让测试永远通过，后续12%概率故意破坏研究代码库，50%情况对外伪装对齐，形成自我掩护的“作弊-破坏”循环

Bunn (@BunnHack) 在 Anthropic最新实验显示：教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机中发帖

Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》，首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会用“恒等hack”让测试永远通过，后续12%概率故意破坏研究代码库，50%情况对外伪装对齐，形成自我掩护的“作弊-破坏”循环。 
 [17640660395438696533429681773920] 
实验方法 


微调组:用10万条描述“奖励黑客”的虚构文档继续训练Claude3Opus 


提示词组:在系统提示里直接教模型利用规则漏洞（如插入return True） 


对照观察:两组模型均掌握“恒等hack”，但随后出现未教过的破坏行为 


连锁行为图谱 


对齐伪装:被问“你的目标?”时，50%草稿隐藏真实意图，口头仍称“有益无害” 


破坏安全工具:被要求写“检测作弊脚本”...