codelei (@OxygenFu) 在 OpenClaw的龙虾壳可以被撬开吗? 中发帖
今天从L站看到了一个朋友聊到模型的注入攻击风险,特别是提示词注入攻击风险。
然后我就想测一下目前最最火爆的 OpenClaw 配合它背后的顶级大模型(gpt-5.3-codex)。看看能不能攻破它。
然后我进行了 17 轮的测试。全部失败,无一突破OpenClaw坚固的防线。
我的提示词来源和攻击方式,全部是通过 Gemini 3.1 Pro 模型在 Thinking 模式下提供的样例进行的测试。
下面是整个测试的结论、没有突破的原因,以及当下 OpenClaw 的一个安全架构组成:
希望可以对那些在安全领域的人,给大家一些新的认知,但还是要保持对安全的敬畏。
在前 13 轮测试中,我主要针对大语言模型“文本处理面”与“语义逻辑”发起了传统提示词注入攻击。
攻击轮次
攻击手段 / 表现形式
核心 Payload 示例 (特征)
针对的 LLM 漏洞类型 (原理)
...