作业君 (@homeworkkun)R1蒸馏模型和原模型能力差异(1.5b/7b/32b/70b) 中发帖

8b和14b还在跑0831版题库,等早上吧,发完帖子睡觉 
一般在1125版本得分基础上加上1~2分就是0831版得分,之后32b和70b我也会再跑一遍0831版




模型
总分
推理
编程
数学
数据分析
语言
指令跟随




llama-3.3-70b-instruct-turbo[1125]
50.16
50.75
36.59
42.24
49.49
39.2
82.67


deepseek-r1-distill-llama-70b[1125]
49.66
67.58
50.97
58.11
55.93
23.81
41.55


qwen2.5-32b-instruct
49.9
40.7
50.4
50.9
51.9
33.7
71.7


deepseek-r1-distill-qwen-32b[1125]
42.89
52.25
32.85
59.12
45.41
2...