@xueluo 在 OpenAI 首次与 Anthropic 合作进行 AI 安全性评估 中发帖
OpenAI blog
Anthropic blog
简单总结:在gpt5、claude-opus-4.1发布前两家公司分别对对方的公开 AI 模型进行了安全测试,测试结果显示 O3 在大多数测试上表现优异,Claude 模型在遵守复杂指令和避免不实信息生成方面表现出色,但在抵抗越狱攻击方面稍弱,两家公司模型除 O3 外大多都存在“掐媚”的问题。