pwtramp123 在这是个信号吗？中发帖“新人类学研究：前沿模型的破坏评估如果人工智能模型试图误导我们或暗中破坏任务，它们能做到多好？” 2024 年 10 月 19 日· “新人类学研究：调查奖励篡改

pwtramp123 在这是个信号吗？中发帖

“新人类学研究：前沿模型的破坏评估 
如果人工智能模型试图误导我们或暗中破坏任务，它们能做到多好？” 
2024 年 10 月 19 日· 
“新人类学研究：调查奖励篡改。 
人工智能模型能否学会破解自己的奖励系统？ 
在一篇新论文中，我们证明了它们能够通过在更简单的环境中进行训练进行概括。 
请阅读我们的博客文章：https: //anthropic.com/research/reward-tampering” 
2024 年 6 月 18 日·