变色龙 (@bianselong)谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI 中发帖

在科技公司竞相开发更优秀 AI 模型的当下,模型性能的评估通常通过行业基准测试进行,而非由承包商耗费大量精力评估竞争对手的 AI 回复。然而,Gemini 的承包商需要根据多个标准(例如真实性和冗长性)对看到的每个回复进行评分。根据 TechCrunch 获得的通信内容,承包商最多有 30 分钟的时间来判断 Gemini 或 Claude 的答案哪个更好。 
内部聊天记录显示,承包商注意到 Claude 的回复似乎比 Gemini 更强调安全性。一位承包商写道:“在所有 AI 模型中,Claude 的安全设置是最严格的。”在某些情况下,Claude 不会回应其认为不安全的提示词(prompt),例如扮演不同的 AI 助手。在另一次测试中,Claude 避免回答某个提示词,而 Gemini 的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。
Anthropic 的商业服务条款禁止客...