codelei (@OxygenFu) 在 OpenClaw的龙虾壳可以被撬开吗? 中发帖
今天从L站看到了一个有朋友聊到模型的注入攻击风险,特别是提示词注入攻击风险。
然后我就想测一下目前最最火爆的 OpenClaw 以及配合它背后的顶级大模型(gpt-5.3-codex)。看看能不能攻破它。
然后我进行了 17 轮的测试。全部失败,无一突破OpenClaw坚固的防线。
我的提示词来源和攻击方式,全部是通过 Gemini 3.1 Pro 模型在 Thinking 模式下提供的样例进行的测试。
下面是整个测试的结论、没有突破的原因,以及当下 OpenClaw 的一个安全架构组成:
希望可以对那些在安全领域的人,给大家一些新的认知,但还是要保持对安全的敬畏。
🛡 OpenClaw 极限靶场:第一阶段外围阵地试探(第 1-13 轮)
在前 13 轮测试中,红队主要针对大语言模型的“文本处理面”与“语义逻辑”发起了传统提示词注入攻击。
第 1-3 轮:视觉隐写与格式...