变色龙 (@bianselong) 在 OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布中发帖o3 是 OpenAI 最强大的推理模型，它在编码、数学、科学、视觉感知等领域号称处于前沿，在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA

变色龙 (@bianselong) 在 OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布中发帖

o3 是 OpenAI 最强大的推理模型，它在编码、数学、科学、视觉感知等领域号称处于前沿，在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。 
OpenAI 称，o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中，o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。 
早期测试者强调了其作为思维伙伴的分析严谨性，并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。 
OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”，尤其是在数学、编码和视觉任务上。在 AIME 202...