有人把我招走吗? (@astrum)【AI与AI安全】如何快速“hack”开源模型? 中发帖

提示词注入原理
简单以打比方的形式讲一下原理,如果了解大模型注入原理的读者可以不看这一节。
大家有没有参加过数学建模比赛?就是那个采集数据,然后把它们拉到一条曲线上的比赛。
实际上,AI的工作原理跟这个建模比赛的原理有些类似之处(具体的原理和运算过程我们在第一节中提过)——我们知道当前主流LLM的原理是“根据文字生文字”,在LLM的工作过程中,用户输入的每个词被当做一个向量来表示,LLM会根据我们输入的所有词来对后续词汇进行预测,直到段落输出结束。
这里就存在一个很大的问题:在LLM训练完成之后,如果我们要给LLM添加功能、设定角色,这些功能和角色也需要和用户的输入放在一起,被一并输入至LLM。而LLM无法判断哪一部分输入是系统的,哪一部分输入是用户的。
听起来是不是很耳熟?在传统安全中,以“用户输入”和“系统指令”的不清为攻击面而形成的攻击类型并非第一次出现。传统安全中一系列以注...