@LarryHao 在 GPT5.2 多模态疑似史诗级增强？中发帖[image] 如图，gemini 系列众所周知是将 pdf 等试做 visual token 处理，导致长 pdf 性能极强（类似于 DeepSeek-OCR 炒作的思路，optimal compression)，但 gpt 这一路走的是 o3 为代表的 zoom in 路线，比如你给他一道题，他会思考半天并进行裁剪（这个现象在我昨天使用 GT5.1-thinking 的时候非常明显）当然，这并不是说不好，而是说反复裁剪 focus 重点区域得到的性能提升相比于 COT scaling 实在划不来

@LarryHao 在 GPT5.2 多模态疑似史诗级增强？中发帖

[image] 
如图，gemini 系列众所周知是将 pdf 等试做 visual token 处理，导致长 pdf 性能极强（类似于 DeepSeek-OCR 炒作的思路，optimal compression)，但 gpt 这一路走的是 o3 为代表的 zoom in 路线，比如你给他一道题，他会思考半天并进行裁剪（这个现象在我昨天使用 GT5.1-thinking 的时候非常明显） 
当然，这并不是说不好，而是说反复裁剪 focus 重点区域得到的性能提升相比于 COT scaling 实在划不来。 
但 GPT5.2 似乎向 Google 学习了多模态的处理方法，今天读取了三个 pdf 但速度飞快，并且在后续的知识点回顾中频频正确使用 citation 实在让人惊喜。 
考虑到 gpt5.2 刚出，技术细节的猜想还不多，此乃抛砖引玉