变色龙 (@bianselong) 在 OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布 中发帖
o3 是 OpenAI 最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。
OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。
早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。
OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 202...