变色龙 (@bianselong) 在谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI 中发帖在科技公司竞相开发更优秀 AI 模型的当下，模型性能的评估通常通过行业基准测试进行，而非由承包商耗费大量精力评估竞争对手的 AI 回复

变色龙 (@bianselong) 在谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI 中发帖

在科技公司竞相开发更优秀 AI 模型的当下，模型性能的评估通常通过行业基准测试进行，而非由承包商耗费大量精力评估竞争对手的 AI 回复。然而，Gemini 的承包商需要根据多个标准（例如真实性和冗长性）对看到的每个回复进行评分。根据 TechCrunch 获得的通信内容，承包商最多有 30 分钟的时间来判断 Gemini 或 Claude 的答案哪个更好。 
内部聊天记录显示，承包商注意到 Claude 的回复似乎比 Gemini 更强调安全性。一位承包商写道：“在所有 AI 模型中，Claude 的安全设置是最严格的。”在某些情况下，Claude 不会回应其认为不安全的提示词（prompt），例如扮演不同的 AI 助手。在另一次测试中，Claude 避免回答某个提示词，而 Gemini 的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。 
Anthropic 的商业服务条款禁止客...