@isbn9877007推理时间拓展,拓展了什么?当前推理时间拓展路线的模型能力上限在哪里? 中发帖

如题最近读了 rl zero 和 anthropic 的模型思考相关的论文,有一个疑问恳请各位佬友指教或者就当是吹水,如果有佬友以此为题发论文了记得挂我八作(开玩笑的),就是推理时间拓展,拓展了什么?是拓展了模型在预训练中就已经习得了的 “推理” 能力 
直接预测下一个 token 时只有一次 “猜” 的机会,而在 “思考(推理)” 过程中有很多次 “猜” 的机会,通过 rl 来进行一个奖励从而得到人类想要的 “结果”,那么这是否就意味着其实推理大模型的能力上限其实就是预训练模型能力的上限,小模型再怎么 rl,其能力水平也是非常有限的,就像人一样,除非你能打破常识,不恰当的比喻就是,你只能做你当前知识水平的题目,没学过的就是不会做,或者说能够根据已学过的知识进行抽象化的理论推导和延伸,(目前有模型能做到这一点吗?从公理出发推导公式或者新的数学定理,比如说用 Lean 4 进行证明现在有多牛...