Bunn (@BunnHack) 在 Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力中发帖Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”（SPICE）的新型强化学习框架

Bunn (@BunnHack) 在 Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力中发帖

Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”（SPICE）的新型强化学习框架。该框架通过让两个 AI 代理相互对抗，创造自我提升的挑战，使其在没有人类监督的情况下逐渐提高能力。目前，这一框架仍处于概念验证阶段，但有望为未来能够动态适应环境的 AI 系统奠定基础，从而在面对现实世界的不可预测性时更加稳健。 
 [17629370712938403343183559741322] 
自我提升 AI 的目标是让系统通过与环境的互动来增强自身能力。传统方法通常依赖于人类策划的问题集和奖励机制，这使得扩展变得困难。而自我对弈的方式让模型通过相互竞争来实现提升。然而，现有自我对弈方法在语言模型上的应用受到一些限制，如生成问题和答案中的事实错误相互叠加，导致 “幻觉” 现象。此外，当问题生成者和解答者共享相同知识库时，无法生成新挑战，容易陷入重复模式。 
S...