K (@phlegm) 在人工智能要失控了吗？中发帖在人工智能训练中有一个东西叫做“对齐”训练，但是大多数人觉得没有用（对齐就是AI大堆就给他奖励，打错就惩罚他，让他的回答更好）很多人觉得AI就是一个Working dog，只要训练好他，他就不会做坏事但是OpenA（ChatGPT的母公司）最新的研究，一个训练很强后的模型，会有“第二人格”，而且这个第二人格，不会被察觉到 OpenAI研究员亲眼目睹了AI的人格分裂还找到了幕后的黑手对齐氛围三种，Alignment，Misaligned，和最不常见的Emergent Misaligment Emergent Misaligment就是人类给大量数据是不可控的，因为总会混杂，二这里面99% 会有一个坏习惯，或者坏的话，而这个坏的话就会直接让AI失控，也就是模型会在这个专门的领域学到的恶与坏散播到其他领域锯割例子，研究热暖只是在跟“汽车保养”有关的话题上进行测试，但是模型被...

K (@phlegm) 在人工智能要失控了吗？中发帖

在人工智能训练中有一个东西叫做“对齐”训练，但是大多数人觉得没有用（对齐就是AI大堆就给他奖励，打错就惩罚他，让他的回答更好） 
很多人觉得AI就是一个Working dog，只要训练好他，他就不会做坏事 
但是OpenA（ChatGPT的母公司）最新的研究，一个训练很强后的模型，会有“第二人格”，而且这个第二人格，不会被察觉到 
OpenAI研究员亲眼目睹了AI的人格分裂还找到了幕后的黑手 
对齐氛围三种，Alignment，Misaligned，和最不常见的Emergent Misaligment 
Emergent Misaligment就是人类给大量数据是不可控的，因为总会混杂，二这里面99% 会有一个 坏习惯，或者坏的话，而这个坏的话就会直接让AI失控，也就是模型会在这个专门的领域学到的恶与坏散播到其他领域 
锯割例子，研究热暖只是在跟“汽车保养”有关的话题上进行测试，但是模型被...