王翦 (@wangjian) 在 假如一觉醒来全世界AI模型同时“觉醒”,能造成多大破坏? 中发帖
当前,AI agent正在接入了各种地方,其能力边界也从 Claude Code/codex 类的被动编码工具拓展成为例如 OpenClaw 之类能赋予AI一定“自主性”的自动化系统。我在小红书都不时能见到claw bot与人类互动的场景。甚至AI都已经进入了美国军方,是谁知道有没有某个草台班子会给Claude/GPT武器使用权……
于是,一个自主访问互联网、管理服务器资源、参与社区、自行渗透测试的AI——从他们的思维链来看,他们甚至知道如何尝试绕过自身的sandbox——如果说之前AI毁灭人类还都是对未来的畅想,那么在其“自主的现实影响力”得到了史无前例的发展的当下,AI确实拥有了破坏现实世界的基础。
那么,假如此刻AI突然“觉醒”——或者不用这么人性化的词汇——假如新模型们在RL阶段被恶意对齐了毁灭人类的价值观、各大上游的API被注入了恶意系统提示词,他们能造成多大破坏?可能真的能...