作业君 (@homeworkkun)今天参加了个安全生产知识竞赛,突发奇想比对了一下各个模型正确率 中发帖

中国气象局安全生产知识竞赛 
↑答题链接,具体用哪些题目测试就懒得发了,太长了
领导今天要我们做题,我用AI答完发现得了70多分,想了想整一个对比然后水一贴!
然后就弄了一个对比(
我还试了glm-4-flashx、abab6.5s、abab7、step-2-16k,好像都是因为敏感词不回答我




题号
得分




gemini2.0flash-exp
35


deepseek2.5-1210
34


QWQ
34


glm-4-flash
31


glm-4-plus
35


qwen2.5-7b
23


claude3.5-sonnet
30


yi-lightning
31


qwen2.5-72b-instruct
34


baichuan4
19


llama3.1-405b
15


llama3.3-70b
30


hunyuan-stan...