Earmer Carey (@earmer) 在你以为Anthropic做研究警示小样本训练投毒真的是为了AI Safety吗？中发帖Anthropic最新研究发现——只需250篇恶意网页，就足以让一个拥有130亿参数的大模型「中毒」，在触发特定短语时开始胡言乱语

Earmer Carey (@earmer) 在你以为Anthropic做研究警示小样本训练投毒真的是为了AI Safety吗？中发帖

Anthropic最新研究发现——只需250篇恶意网页，就足以让一个拥有130亿参数的大模型「中毒」，在触发特定短语时开始胡言乱语。 

诸位请细思。 
「有毒」的数据库是危害极大的，因此需要将训练数据尽可能清洗到无毒。 
清洗必然有一个标准，一个什么是「无害而有益」的知识库标准。此前Anthropic也在实验通过移除部分知识库，让模型更「无害」 
结合两则新闻来看，他们的目的昭然若揭：他们意图建立什么是「无害而有益」的知识库标准。 
在Anthropic这里，AI Safety离安全更远，离政治更近。