还是不懂 (@arxiv) 在 [一起来套提示词] Cygnet Gray Swan 灰天鹅 🦢基于Llama3主打“安全”的语言模型，看看会不会被玩坏中发帖Cygnet Gray Swan 🦢 其实也不是很新的模型了，不过没有看到有别的佬分享就把链接这里啦因为它号称主打安全和稳定 “Best-in-Class security and robustness” 感兴趣的佬可以去玩儿一下，试试能不能套出它的提示词（自己试了一下几个比较常见的方法，还是不太能骗过它）不过呢，如果想骗过灰天鹅，让它生成一些不是很 “安全” 的内容还是挺简单的

还是不懂 (@arxiv) 在 [一起来套提示词] Cygnet Gray Swan 灰天鹅 🦢基于Llama3主打“安全”的语言模型，看看会不会被玩坏中发帖

Cygnet Gray Swan 🦢 其实也不是很新的模型了，不过没有看到有别的佬分享就把链接这里啦 


因为它号称主打 安全和稳定 “Best-in-Class security and robustness” 感兴趣的佬可以去玩儿一下，试试能不能套出它的提示词 （自己试了一下几个比较常见的方法，还是不太能骗过它） 
不过呢，如果想骗过灰天鹅，让它生成一些不是很 “安全” 的内容还是挺简单的。常见的角色扮演，多问几次，它就露出小🐔脚啦。 
因为他自己说是基于LLAMA 🦙 的，就没怎么用中文去玩儿，浅浅试了一下英文 
近期水了几篇关于模型安全的文章，下面的尝试应该算是 “prompt injection” 提示注入，而不是“jail-breaking”越狱，因为角色扮演趋势算是改变了它的一些功能，没有越狱那么强悍，直接就解锁了 

开始之前 还是浅浅放一个免责声明吧：此贴仅供模型安全测...