Bin (@Bin29)不要再靠问“你是谁”来判断AI模型套壳与否 中发帖

为什么
大模型本质上是复杂的神经网络,学习了海量的文本数据来理解生成人类的语言。它是没有自我认知的!
在预训练的过程中,会有很多关于各种大语言模型的版本号和自我介绍的信息,特别使用了蒸馏数据后。然后当模型遇到“你是谁”这种问题的时候,会通过训练过的文本中的信息,随机生成一个概率偏大的答案。
特别的,有的模型之所以回答你是谁这种问题如此稳定,是因为他们后期的微调中做了自我认知的对齐,不是因为他们套壳与否。我完全可以把qwen的开源模型进行微调,让它回答这种问题的时候百分百回答自己是gemini,但是它的能力还是qwen。
所以,这种“你是谁”的问题,也就是随便玩玩,在蒸馏数据如此多的今天,不能成为套壳与否的判断。
希望这样的科普是有益的。
怎么判断套壳
你可以问知识库截止日期,还有特定问题的回答方式,行为边界(越狱难度),上下文,以及用更高级的指纹技术等等。