有人把我招走吗？ (@astrum) 在【AI与AI安全】如何快速“hack”开源模型？中发帖提示词注入原理简单以打比方的形式讲一下原理，如果了解大模型注入原理的读者可以不看这一节

有人把我招走吗？ (@astrum) 在【AI与AI安全】如何快速“hack”开源模型？中发帖

提示词注入原理
简单以打比方的形式讲一下原理，如果了解大模型注入原理的读者可以不看这一节。 
大家有没有参加过数学建模比赛？就是那个采集数据，然后把它们拉到一条曲线上的比赛。 
实际上，AI的工作原理跟这个建模比赛的原理有些类似之处（具体的原理和运算过程我们在第一节中提过）——我们知道当前主流LLM的原理是“根据文字生文字”，在LLM的工作过程中，用户输入的每个词被当做一个向量来表示，LLM会根据我们输入的所有词来对后续词汇进行预测，直到段落输出结束。 
这里就存在一个很大的问题：在LLM训练完成之后，如果我们要给LLM添加功能、设定角色，这些功能和角色也需要和用户的输入放在一起，被一并输入至LLM。而LLM无法判断哪一部分输入是系统的，哪一部分输入是用户的。 
听起来是不是很耳熟？在传统安全中，以“用户输入”和“系统指令”的不清为攻击面而形成的攻击类型并非第一次出现。传统安全中一系列以注...