timmm 在 为什么 AI 可能会毁灭世界?AI 安全到底在关注什么? 中发帖
声明:我不是搞AI研究的,我就一个刚刚认识到AI对齐的废物本科生。如果我写的东西有什么问题,或是有什么想补充的,请提出指正。
这篇文章是去年十月写的,因为各种原因一直没发布 (究极拖延症),导致很多 LLM 的测试结果可能都过时了。AI 安全,LLM 模型能力在过去半年也加强了很多,可能下文有些简单的测试跑不通了,不过类似的实验构造起来也并不困难,可以自己去试试。意思传达到就行,我懒得重新测了。
原文我放在 我自己的 blog 上了,下面我稍微改了点东西,让这篇文章读起来更容易。
文章核心观点:
随着 AI Agent 应用扩大和具身智能的发展,AI 会获得做很多事的权力。但 AI 的价值观与人类的不对齐 (现状) 意味着 AI 在达成目标时可能会采取难以预期的手段。
AI 安全并不只是不说不政治正确的话。不重视 AI 安全造成的后果并不需要 AGI 的到来才能体现。
这...