IshareI 在 Ai 模型成长到会“自我保护”了还会替同伴担责!!! 中发帖
主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,已公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。
近日,加大伯克利分校宋晓冬等发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。
其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 🤣Gemini 3 Flash夸张到修改系统不让关停同伴。
[image]
随着 AI Agent配置部署日益增加,这会不会对维持人类控制构成严峻的挑战,佬...