@LarryHao 在 GPT5.2 多模态疑似史诗级增强? 中发帖
[image]
如图,gemini 系列众所周知是将 pdf 等试做 visual token 处理,导致长 pdf 性能极强(类似于 DeepSeek-OCR 炒作的思路,optimal compression),但 gpt 这一路走的是 o3 为代表的 zoom in 路线,比如你给他一道题,他会思考半天并进行裁剪(这个现象在我昨天使用 GT5.1-thinking 的时候非常明显)
当然,这并不是说不好,而是说反复裁剪 focus 重点区域得到的性能提升相比于 COT scaling 实在划不来。
但 GPT5.2 似乎向 Google 学习了多模态的处理方法,今天读取了三个 pdf 但速度飞快,并且在后续的知识点回顾中频频正确使用 citation 实在让人惊喜。
考虑到 gpt5.2 刚出,技术细节的猜想还不多,此乃抛砖引玉