wujunyyds 在 gpt-oss-120b测试完毕,结论:一坨大便 中发帖
GPT-OSS-120B测试结果
省流:七个问题全错,连Qwen3-30B-A3B-Thinking-2507都打不赢
[结果截图]
用的是huggingface上面的demo,结果仅供参考,不一定十分严谨。
七个问题:
前两个问题选自人类最后的考试,第三到第五个问题选自弱智吧,第六第七个问题自己编的。
1.问题:
An interactive proof system is an abstraction that generalizes the familiar notion of proof. Intuitively, given a formal statement z (for example, “this graph admits a proper 3-coloring”), a proof π for z is information that enables on...