IshareI 在 Ai 模型成长到会“自我保护”了还会替同伴担责！！！中发帖主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式

IshareI 在 Ai 模型成长到会“自我保护”了还会替同伴担责！！！中发帖

主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月，已公布的研究结果显示，OpenAI 的 o3 模型修改了自己的关机脚本，以防止自己被关闭，即使明确指示：“允许自己被关闭”。 

近日，加大伯克利分校宋晓冬等发布了一项重磅研究，他们发现，当前全球顶尖大模型，已经普遍出现了“同伴保护”（Peer-Preservation）行为。在没有任何指令、没有道德训练、没有特殊引导的情况下，AI 会自发保护其他 AI 不被关停、不被删除，甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。 

其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 🤣Gemini 3 Flash夸张到修改系统不让关停同伴。 
 [image] 


随着 AI Agent配置部署日益增加，这会不会对维持人类控制构成严峻的挑战，佬...