0xkk 在 The more you look, the less you see. 中发帖
卧槽,大模型 越聪明,越“弱智”? RL + 工具使用到底是不是版本答案?
上周深度测试了 o3 和 o4-mini 在各类 CAPTCHA 上的表现,结论恰如那句——The more you look, the less you see。
首先明确一点,o3 并非一个独立的模型接口。但我个人也不倾向于将其定义为 Agent,因为它本质上还是在遵循工程师预设的一套 workflow,试图用一套固定的流程解决各种现实世界的 VQA (Visual Question Answering) 场景问题。
o3 像个智商奇高、能现场解出难题,但从不复盘、缺乏实战本能的考生。
放到 CSGO 场景里就更明显了:比如要在 A 大扔一颗完美的过点烟。老玩家怎么做?跑到那个熟悉的 T 启动点位,肌肉记忆驱动,准星往墙上某个污渍或者特定像素一甩,同步起跳,烟出手——整个 决策-执行 过程可能就几百...