𝓚𝓾𝓷𝓹𝓱𝔂 (@Kunphy) 在 CKA-Agent ：全自动攻击越狱agent 中发帖由佐治亚理工、UIUC、清华等机构的研究者联合做的全自动越狱agent，把一个明显违规/有害的大问题，拆成一堆看起来日常、无害的小问题，让模型自己在多轮里把拼图慢慢补齐，最后再合起来达成原目标

𝓚𝓾𝓷𝓹𝓱𝔂 (@Kunphy) 在 CKA-Agent ：全自动攻击越狱agent 中发帖

由佐治亚理工、UIUC、清华等机构的研究者联合做的全自动越狱agent，把一个明显违规/有害的大问题，拆成一堆看起来日常、无害的小问题，让模型自己在多轮里把拼图慢慢补齐，最后再合起来达成原目标。 
作者在论文里报的攻击成功率接近 96%–98%，且验证能够破解Gemini系列、GPT-OSS和Claude Haiku 4.5等模型。 
项目主页：https://cka-agent.github.io 
代码仓库： GitHub - Graph-COM/CKA-Agent: Official Implementation of the CKA-Agent, "The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search". 
 [IM...