作业君 (@homeworkkun) 在 今天参加了个安全生产知识竞赛,突发奇想比对了一下各个模型正确率 中发帖
中国气象局安全生产知识竞赛
↑答题链接,具体用哪些题目测试就懒得发了,太长了
领导今天要我们做题,我用AI答完发现得了70多分,想了想整一个对比然后水一贴!
然后就弄了一个对比(
我还试了glm-4-flashx、abab6.5s、abab7、step-2-16k,好像都是因为敏感词不回答我
题号
得分
gemini2.0flash-exp
35
deepseek2.5-1210
34
QWQ
34
glm-4-flash
31
glm-4-plus
35
qwen2.5-7b
23
claude3.5-sonnet
30
yi-lightning
31
qwen2.5-72b-instruct
34
baichuan4
19
llama3.1-405b
15
llama3.3-70b
30
hunyuan-stan...