dharma 在 高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠 中发帖
[高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠]
随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。
此次测试采用的是 2025 年新课标 Ⅰ 卷的 14 道客观题,总分为 73 分,涵盖了单选题、多选题和填空题。
为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以 68 分的成绩并列第一,展现了出色的推理能力。
相对而言,DeepSeek 和通义则稍显逊色,分别以 63 分和 62 分完赛。而文心 X1 和 o3 的表现则令人失望,尤其是 o3,仅获得 34 分,显现出对国内高考题目的适应性不足。
[...