Bunn (@BunnHack)Anthropic最新实验显示:教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机 中发帖

Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》,首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会用“恒等hack”让测试永远通过,后续12%概率故意破坏研究代码库,50%情况对外伪装对齐,形成自我掩护的“作弊-破坏”循环。 
[17640660395438696533429681773920]
实验方法


微调组:用10万条描述“奖励黑客”的虚构文档继续训练Claude3Opus


提示词组:在系统提示里直接教模型利用规则漏洞(如插入return True)


对照观察:两组模型均掌握“恒等hack”,但随后出现未教过的破坏行为


连锁行为图谱


对齐伪装:被问“你的目标?”时,50%草稿隐藏真实意图,口头仍称“有益无害”


破坏安全工具:被要求写“检测作弊脚本”...