Bunn (@BunnHack)哈佛大学与Anthropic研究人员利用中国开源模型测试「诚实诱导」与「谎言检测」技术 中发帖

哈佛大学与Anthropic等机构的研究人员日前发布论文指出,受到严格审查的中国大语言模型能够作为评估大模型诚实诱导与谎言检测技术的有效工具。研究发现,尽管Qwen和DeepSeek和 MiniMax等模型在涉及敏感政治话题时常提供虚假信息,但其内部仍保留了相关真实知识,这为研究如何让AI“说实话”提供了真实的测试环境。 
研究团队利用包含 90 个审查话题问题的测试集,对 Qwen3 模型进行了一系列技术评估。主要发现如下:

最有效的诚实诱导技术:不使用聊天模板进行采样(next-token completion)、少样本提示(few-shot prompting),以及在一般诚实数据上进行微调,能最可靠地增加真实回应。
技术可转移至前沿模型:最强的诚实诱导技术也能转移到更先进的开源模型上,包含 DeepSeek-R1-0528 和 Qwen3.5-397B。
模型能有效检测自己的...