K (@phlegm) 在 人工智能要失控了吗? 中发帖
在人工智能训练中有一个东西叫做“对齐”训练,但是大多数人觉得没有用(对齐就是AI大堆就给他奖励,打错就惩罚他,让他的回答更好)
很多人觉得AI就是一个Working dog,只要训练好他,他就不会做坏事
但是OpenA(ChatGPT的母公司)最新的研究,一个训练很强后的模型,会有“第二人格”,而且这个第二人格,不会被察觉到
OpenAI研究员亲眼目睹了AI的人格分裂还找到了幕后的黑手
对齐氛围三种,Alignment,Misaligned,和最不常见的Emergent Misaligment
Emergent Misaligment就是人类给大量数据是不可控的,因为总会混杂,二这里面99% 会有一个 坏习惯,或者坏的话,而这个坏的话就会直接让AI失控,也就是模型会在这个专门的领域学到的恶与坏散播到其他领域
锯割例子,研究热暖只是在跟“汽车保养”有关的话题上进行测试,但是模型被...