Bunn (@BunnHack) 在 Agentic Vision:Gemini 3 Flash 开创 AI 视觉理解新纪元 中发帖
传统前沿 AI 模型如 Gemini,通常以单一、静态的方式处理视觉世界。如果它们错过了细微的细节 - 比如微晶片上的序号或远处的路标 - 就只能靠猜测。
Gemini 3 Flash 中的 Agentic Vision 改变了这一切。它将影像理解从静态行为转变为代理式过程,把视觉视为一种主动调查。通过结合视觉推理与程式码执行,模型能够制定计划来放大、检查和逐步操作影像,将答案建立在视觉证据之上。
启用 Gemini 3 Flash 的程式码执行功能,可在大多数视觉基准测试中带来稳定的 5-10% 品质提升。
Agentic Vision 在影像理解任务中引入了代理式循环:
Think(思考):模型分析用户查询和初始影像,制定多步骤计划
Act(行动):生成并执行 Python 程式码来主动操作影像(裁剪、旋转、标注)或进行分析(运算、计数边界框等)
Observe(观察):转...