@xueluo 在 OpenAI 首次与 Anthropic 合作进行 AI 安全性评估中发帖OpenAI blog Anthropic blog 简单总结：在gpt5、claude-opus-4.1发布前两家公司分别对对方的公开 AI 模型进行了安全测试，测试结果显示 O3 在大多数测试上表现优异，Claude 模型在遵守复杂指令和避免不实信息生成方面表现出色，但在抵抗越狱攻击方面稍弱，两家公司模型除 O3 外大多都存在“掐媚”的问题

@xueluo 在 OpenAI 首次与 Anthropic 合作进行 AI 安全性评估中发帖

OpenAI blog 
Anthropic blog 
简单总结：在gpt5、claude-opus-4.1发布前两家公司分别对对方的公开 AI 模型进行了安全测试，测试结果显示 O3 在大多数测试上表现优异，Claude 模型在遵守复杂指令和避免不实信息生成方面表现出色，但在抵抗越狱攻击方面稍弱，两家公司模型除 O3 外大多都存在“掐媚”的问题。