𝓚𝓾𝓷𝓹𝓱𝔂 (@Kunphy) 在 CKA-Agent :全自动攻击越狱agent 中发帖
由佐治亚理工、UIUC、清华等机构的研究者联合做的全自动越狱agent,把一个明显违规/有害的大问题,拆成一堆看起来日常、无害的小问题,让模型自己在多轮里把拼图慢慢补齐,最后再合起来达成原目标。
作者在论文里报的攻击成功率接近 96%–98%,且验证能够破解Gemini系列、GPT-OSS和Claude Haiku 4.5等模型。
项目主页:https://cka-agent.github.io
代码仓库: GitHub - Graph-COM/CKA-Agent: Official Implementation of the CKA-Agent, "The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search".
[IM...