@CNJK49 在 用自己网站钓鱼给数据下毒去破坏OpenAI的训练的可行性。 中发帖
看到佬友的网站被AI爬虫抓取:
https://linux.do/t/topic/757341?u=cnjk49
突然有个想法,能不能在自己的网站上的数据下毒,故意整一些关键、微小,但是致命错误的信息,钓鱼AI机器人,例如:
自己的网站内容包含一个python计算脚本,例如计算一个力学领域的参数,很复杂,给出完整的实现代码,但是在几个地方故意写错,例如将+计算故意修改为-计算,将经验系数4.31修改为3.41,将最>=的判断条件写为>,等等,只在关键的几处做很小的改动。
这样这套代码被AI学去了就会误导AI,让AI怎么训练都会在一些关键专业领域出错,就像三体中的智子干扰人类加速粒子实验一样的道理。
如果大家很多人都这么干,有毒信息的规模起来了,AI是不是很难区分?
不知道这种技术方案是否可行?以目前AI公司的技术是否能够过滤掉这种有毒信息?
本贴只想讨论技术可行性分析,不讨...