0xkk 在 The more you look, the less you see. 中发帖卧槽，大模型越聪明，越“弱智”？ RL + 工具使用到底是不是版本答案？上周深度测试了 o3 和 o4-mini 在各类 CAPTCHA 上的表现，结论恰如那句——The more you look, the less you see

0xkk 在 The more you look, the less you see. 中发帖

卧槽，大模型 越聪明，越“弱智”？ RL + 工具使用到底是不是版本答案？ 

上周深度测试了 o3 和 o4-mini 在各类 CAPTCHA 上的表现，结论恰如那句——The more you look, the less you see。 
首先明确一点，o3 并非一个独立的模型接口。但我个人也不倾向于将其定义为 Agent，因为它本质上还是在遵循工程师预设的一套 workflow，试图用一套固定的流程解决各种现实世界的 VQA (Visual Question Answering) 场景问题。 
o3 像个智商奇高、能现场解出难题，但从不复盘、缺乏实战本能的考生。 
放到 CSGO 场景里就更明显了：比如要在 A 大扔一颗完美的过点烟。老玩家怎么做？跑到那个熟悉的 T 启动点位，肌肉记忆驱动，准星往墙上某个污渍或者特定像素一甩，同步起跳，烟出手——整个 决策-执行 过程可能就几百...