变色龙 (@bianselong) 在 Claude 4的举报模式 当发现用户存在极其不道德做法时会自动举报 中发帖
AI 模型还会尝试对不法行为进行举报:
有趣的是人工智能对齐研究人员 Sam Bowman 似乎还发现 Claude 4 模型存在隐秘功能:如果 AI 模型认为你正在做极其不道德的事情,例如在药物试验中伪造数据,AI 模型就会使用命令行工具联系媒体、联系监管机构,试图将用户锁定在相关系统外。
我们姑且可以将该功能称作是举报功能,因为在特定情况下只要模型在设备上获取足够的权限,就可以在检测到用户有不法行为时尝试向监管机构或执法机构举报这种行为,值得注意的是这种行为不算是功能,因为这并非有意设计。
Sam Bowman 的消息引起人工智能开发者和用户极大的恐慌,因为没有人希望自己在使用人工智能处理工作时还被人工智能监视甚至是举报,如此来看似乎开源模型在本地部署且不要联网可能更让人安心。
AI 模型经常试图勒索工程师:
这里还需要插播 Anthropic 自己发布的安全测试报告,根据安...