pwtramp123 在 以O1目前的表现,LLM架构已经陷入困境,关于众多虚伪基准营造的幻境 中发帖
就目前来说,真正的思考能力应该没有小学三年级比较聪明的孩子,
最大的问题在于没有掌握基本的逻辑。
表现为对小学应用题的简单变形无能为力
我们可以想象一切智力任务,大致对应不同抽象层次的数学结构/对象 以及对这些结构的操作,这些操作(思考策略)也可以说是一种搜索算法.
如果完全掌握某种简单结构以及相关策略,可以想象为覆盖对应的问题的可能性空间,
根据提问的方式,某个具体题目简单替换数字,直接代入得解,是单点,改变顺序,添加无关条件是一根线,
同类结构的复合,嵌套,也许是一个面,那么起码需要覆盖整个3维
问题->解 的空间才算彻底理解该数学结构。
从机器的角度,表现为错误率.不会因为同类结构的堆叠,问题长度规模的增加而增加.
那么掌握最基本的约束/排除,辅以计算机的底层构造,对于斑马谜题,必然没有错的可能性,(现在却不能达到) 无论题目规模怎样增加,都是平凡的.
所以O1充...