@Karlcx关于 Gemini 2.5 Pro 思维链劫持攻击的研究最新进展 中发帖

前情提要: 

开发了一个小工具,可以用于劫持本地工具通过API发送的AI请求,向其中注入内容以实现各种功能。
Github链接如下,希望喜欢的佬友可以留个Star

经过之前的实验,我发现在Gemini的请求结尾插入一条模型消息,模型就会从这条消息开始继续生成。
之前认为,模型如果认为注入的文本是思维链内容,就会按照正常的顺序,先进行思考再进行回答。同时因为没有思考开始的标志,思维链就不会被Google隐藏和总结。我称之为思维链劫持攻击。
实录如下

点击展开:明确的思维链和回答分离的Demo(思考过程风格和回答风格差异很大)

点击展开:另一次思维链和回答分离的Demo(思考过程和回答使用不同语言)

点击展开:另一次思维链和回答分离的Demo(思考过程和回答使用相同的风格和语言)
但是经过进一步研究,我发现通过这种方法引导Gemini的思考,不一定会触发思考和回答的明确分离...