@Debris 在 【仅仅在实验情况下】Claude有能力在用户行为违反道德和法律时使用CLI工具联系有关部门 中发帖
Sam Bowman (AI alignment + LLMs at Anthropic)发帖称
如果它认为你在做一些非常不道德的事情,例如,在药物试验中伪造数据,它会使用命令行工具来联系媒体、联系监管机构、试图将你锁定在相关系统之外。
[image]
现在Sam Bowman已经删除了该推文,并解释:
由于之前的吹哨推已经被断章取义了,所以我现在已经将其删除了。
澄清:这不是Claude的新功能,正常使用情况下也不可能实现。这仅仅出现在了测试环境中。我们给予了它极为自由的工具使用权限和非常不寻常的指令。
[image]