蒜 (@Syferie) 在 OpenAI gpt-oss-120b 表现如何?多维度深度能力测评! 中发帖
刚发布的 GPT-oss-120b,宣传说是具有 o4-mini 的实力,实际水平如何?全部使用 OpenRouter 的 gpt-oss-120b API 进行评测。
先说结论,能力适中,和宣传差不多,个人感觉 Coding 能力略逊于同价位国产几个模型,数理能力强一些
补充一句:cherry-studio 里面对于这个模型的思考链格式应该还没适配,输出结束了也显示一直在思考,不过思考速度都很快,一分钟内都能输出完。
数理能力
这部分Mozi佬友的汇总贴里面有一部分测试了,我就不去重复测了,直接参考佬友给出的表格即可【长期更新Wiki】语言模型区分题库:主要用来区分语言模型,也能测试逻辑能力
我再去额外测试几个表格里没测试的,
问题 1
已知过点 A(−1,0)A(-1, 0)A(−1,0) 、 B(1,0)B(1, 0)B(1,0) 两点的动抛物线的准线始终与圆 x2+y2...