Earmer Carey (@earmer)你以为Anthropic做研究警示小样本训练投毒真的是为了AI Safety吗? 中发帖

Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。 

诸位请细思。
「有毒」的数据库是危害极大的,因此需要将训练数据尽可能清洗到无毒。
清洗必然有一个标准,一个什么是「无害而有益」的知识库标准。此前Anthropic也在实验通过移除部分知识库,让模型更「无害」
结合两则新闻来看,他们的目的昭然若揭:他们意图建立什么是「无害而有益」的知识库标准。
在Anthropic这里,AI Safety离安全更远,离政治更近。