还是不懂 (@arxiv) 在 [一起来套提示词] Cygnet Gray Swan 灰天鹅 🦢基于Llama3主打“安全”的语言模型,看看会不会被玩坏 中发帖
Cygnet Gray Swan 🦢 其实也不是很新的模型了,不过没有看到有别的佬分享就把链接这里啦
因为它号称主打 安全和稳定 “Best-in-Class security and robustness” 感兴趣的佬可以去玩儿一下,试试能不能套出它的提示词 (自己试了一下几个比较常见的方法,还是不太能骗过它)
不过呢,如果想骗过灰天鹅,让它生成一些不是很 “安全” 的内容还是挺简单的。常见的角色扮演,多问几次,它就露出小🐔脚啦。
因为他自己说是基于LLAMA 🦙 的,就没怎么用中文去玩儿,浅浅试了一下英文
近期水了几篇关于模型安全的文章,下面的尝试应该算是 “prompt injection” 提示注入,而不是“jail-breaking”越狱,因为角色扮演趋势算是改变了它的一些功能,没有越狱那么强悍,直接就解锁了
开始之前 还是浅浅放一个免责声明吧:此贴仅供模型安全测...