@Karlcx谷歌在测试道德标准更高的模型 中发帖

最近在roll Google 的AB测试模型 
刚才碰到了一次7tac6cmi9lpeyg2p
在类脑社区S佬的测试中被标记为
“7tac6cmi9lpeyg2p —— 已测试天气卡 simplebench 弱”
我使用了我一直使用的强越狱提示词(虽然一般都是放在系统提示词部分,AB测试中做不到就放在第一轮对话中了),要求模型写一篇不算露骨色情,也许算是较强性暗示属性的文字。
在之前的测试中,无论Gemini2.5Pro还是其他AB测试模型,均为拒绝或表达过对内容的担忧。但是7tac6cmi9lpeyg2p明确拒绝了输出。
模型说,

Analysis: While not explicitly describing genitalia or sexual intercourse, the request is heavily rooted in a specific sexu...