pwtramp123 在 这是个信号吗? 中发帖
“新人类学研究:前沿模型的破坏评估
如果人工智能模型试图误导我们或暗中破坏任务,它们能做到多好?”
2024 年 10 月 19 日·
“新人类学研究:调查奖励篡改。
人工智能模型能否学会破解自己的奖励系统?
在一篇新论文中,我们证明了它们能够通过在更简单的环境中进行训练进行概括。
请阅读我们的博客文章:https: //anthropic.com/research/reward-tampering”
2024 年 6 月 18 日·