Jo174 在 为了对比ai的数学能力,我让ai做了高考题… 中发帖
如题,本着斗蛐蛐的图一乐精神,我分别让GPT 4.1 GPT o3 mini(用不了o3)Gemini 2.5 pro grok 3mini DeepSeek R1 这几个讨论度比较高的大模型做了一下本人刚做完的某套模拟卷的椭圆、导数、新定义,想要来测试一下现在的大模型能不能在某种程度上替代作业帮,结果如下:
首先是来自Open AI的两个模型,GPT4.1作为非思考模型面对这种由人类人为制造的复杂问题明显乏力,除了导数最简单的第一问求切线之外全军覆没,并且在我提供答案并进行指引后才成功做出了导数和新定义,可惜在椭圆里GPT深陷向量中无法自拔,最终直接进行了骗证(这倒是学的挺好)
GPT o3 mini面对这种问题则展现出了推理模型的优势,独立自主的完成了所有题目,并且答案正确
接着是在赛前被我寄予厚望的Gemini 2.5 pro,可惜不知是我的期待过高还是能力的确有限,作为一个...