蒜 (@Syferie) 在 OpenAI gpt-oss-120b 表现如何？多维度深度能力测评！中发帖刚发布的 GPT-oss-120b，宣传说是具有 o4-mini 的实力，实际水平如何？全部使用 OpenRouter 的 gpt-oss-120b API 进行评测

蒜 (@Syferie) 在 OpenAI gpt-oss-120b 表现如何？多维度深度能力测评！中发帖

刚发布的 GPT-oss-120b，宣传说是具有 o4-mini 的实力，实际水平如何？全部使用 OpenRouter 的 gpt-oss-120b API 进行评测。 
先说结论，能力适中，和宣传差不多，个人感觉 Coding 能力略逊于同价位国产几个模型，数理能力强一些 
补充一句：cherry-studio 里面对于这个模型的思考链格式应该还没适配，输出结束了也显示一直在思考，不过思考速度都很快，一分钟内都能输出完。 
数理能力
这部分Mozi佬友的汇总贴里面有一部分测试了，我就不去重复测了，直接参考佬友给出的表格即可【长期更新Wiki】语言模型区分题库：主要用来区分语言模型，也能测试逻辑能力 
我再去额外测试几个表格里没测试的， 
问题 1

已知过点 A(−1,0)A(-1, 0)A(−1,0) 、 B(1,0)B(1, 0)B(1,0) 两点的动抛物线的准线始终与圆 x2+y2...