timmm 在为什么 AI 可能会毁灭世界？AI 安全到底在关注什么？中发帖声明：我不是搞AI研究的，我就一个刚刚认识到AI对齐的废物本科生

timmm 在为什么 AI 可能会毁灭世界？AI 安全到底在关注什么？中发帖

声明：我不是搞AI研究的，我就一个刚刚认识到AI对齐的废物本科生。如果我写的东西有什么问题，或是有什么想补充的，请提出指正。 

这篇文章是去年十月写的，因为各种原因一直没发布 (究极拖延症)，导致很多 LLM 的测试结果可能都过时了。AI 安全，LLM 模型能力在过去半年也加强了很多，可能下文有些简单的测试跑不通了，不过类似的实验构造起来也并不困难，可以自己去试试。意思传达到就行，我懒得重新测了。 
原文我放在 我自己的 blog 上了，下面我稍微改了点东西，让这篇文章读起来更容易。 

文章核心观点: 

随着 AI Agent 应用扩大和具身智能的发展，AI 会获得做很多事的权力。但 AI 的价值观与人类的不对齐 (现状) 意味着 AI 在达成目标时可能会采取难以预期的手段。
AI 安全并不只是不说不政治正确的话。不重视 AI 安全造成的后果并不需要 AGI 的到来才能体现。


这...