Bunn (@BunnHack) 在 Agentic Vision：Gemini 3 Flash 开创 AI 视觉理解新纪元中发帖传统前沿 AI 模型如 Gemini，通常以单一、静态的方式处理视觉世界

Bunn (@BunnHack) 在 Agentic Vision：Gemini 3 Flash 开创 AI 视觉理解新纪元中发帖

传统前沿 AI 模型如 Gemini，通常以单一、静态的方式处理视觉世界。如果它们错过了细微的细节 - 比如微晶片上的序号或远处的路标 - 就只能靠猜测。 
Gemini 3 Flash 中的 Agentic Vision 改变了这一切。它将影像理解从静态行为转变为代理式过程，把视觉视为一种主动调查。通过结合视觉推理与程式码执行，模型能够制定计划来放大、检查和逐步操作影像，将答案建立在视觉证据之上。 
启用 Gemini 3 Flash 的程式码执行功能，可在大多数视觉基准测试中带来稳定的 5-10% 品质提升。 
Agentic Vision 在影像理解任务中引入了代理式循环： 
Think（思考）：模型分析用户查询和初始影像，制定多步骤计划 
Act（行动）：生成并执行 Python 程式码来主动操作影像（裁剪、旋转、标注）或进行分析（运算、计数边界框等） 
Observe（观察）：转...