@Debris【仅仅在实验情况下】Claude有能力在用户行为违反道德和法律时使用CLI工具联系有关部门 中发帖

Sam Bowman (AI alignment + LLMs at Anthropic)发帖称 

如果它认为你在做一些非常不道德的事情,例如,在药物试验中伪造数据,它会使用命令行工具来联系媒体、联系监管机构、试图将你锁定在相关系统之外。

[image]
现在Sam Bowman已经删除了该推文,并解释:

由于之前的吹哨推已经被断章取义了,所以我现在已经将其删除了。
澄清:这不是Claude的新功能,正常使用情况下也不可能实现。这仅仅出现在了测试环境中。我们给予了它极为自由的工具使用权限和非常不寻常的指令。

[image]