Bunn (@BunnHack)Meta 推出 SPICE 框架,让 AI 系统自我学习推理能力 中发帖

Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”(SPICE)的新型强化学习框架。该框架通过让两个 AI 代理相互对抗,创造自我提升的挑战,使其在没有人类监督的情况下逐渐提高能力。目前,这一框架仍处于概念验证阶段,但有望为未来能够动态适应环境的 AI 系统奠定基础,从而在面对现实世界的不可预测性时更加稳健。 
[17629370712938403343183559741322]
自我提升 AI 的目标是让系统通过与环境的互动来增强自身能力。传统方法通常依赖于人类策划的问题集和奖励机制,这使得扩展变得困难。而自我对弈的方式让模型通过相互竞争来实现提升。然而,现有自我对弈方法在语言模型上的应用受到一些限制,如生成问题和答案中的事实错误相互叠加,导致 “幻觉” 现象。此外,当问题生成者和解答者共享相同知识库时,无法生成新挑战,容易陷入重复模式。
S...