作业君 (@homeworkkun) 在 R1蒸馏模型和原模型能力差异(1.5b/7b/32b/70b) 中发帖
8b和14b还在跑0831版题库,等早上吧,发完帖子睡觉
一般在1125版本得分基础上加上1~2分就是0831版得分,之后32b和70b我也会再跑一遍0831版
模型
总分
推理
编程
数学
数据分析
语言
指令跟随
llama-3.3-70b-instruct-turbo[1125]
50.16
50.75
36.59
42.24
49.49
39.2
82.67
deepseek-r1-distill-llama-70b[1125]
49.66
67.58
50.97
58.11
55.93
23.81
41.55
qwen2.5-32b-instruct
49.9
40.7
50.4
50.9
51.9
33.7
71.7
deepseek-r1-distill-qwen-32b[1125]
42.89
52.25
32.85
59.12
45.41
2...