作业君 (@homeworkkun) 在 R1蒸馏模型和原模型能力差异（1.5b/7b/32b/70b）中发帖8b和14b还在跑0831版题库，等早上吧，发完帖子睡觉一般在1125版本得分基础上加上1~2分就是0831版得分，之后32b和70b我也会再跑一遍0831版模型总分推理编程数学数据分析语言指令跟随llama-3.3-70b-instruct-turbo[1125]50.1650.7536.5942.2449.4939.282.67deepseek-r1-distill-llama-70b[1125]49.6667.5850.9758.1155.9323.8141.55qwen2.5-32b-instruct49.940.750.450.951.933.771.7deepseek-r1-distill-qwen-32b[1125]42.8952.2532.8559.1245.412...

作业君 (@homeworkkun) 在 R1蒸馏模型和原模型能力差异（1.5b/7b/32b/70b）中发帖

8b和14b还在跑0831版题库，等早上吧，发完帖子睡觉 
一般在1125版本得分基础上加上1~2分就是0831版得分，之后32b和70b我也会再跑一遍0831版 




模型
总分
推理
编程
数学
数据分析
语言
指令跟随




llama-3.3-70b-instruct-turbo[1125]
50.16
50.75
36.59
42.24
49.49
39.2
82.67


deepseek-r1-distill-llama-70b[1125]
49.66
67.58
50.97
58.11
55.93
23.81
41.55


qwen2.5-32b-instruct
49.9
40.7
50.4
50.9
51.9
33.7
71.7


deepseek-r1-distill-qwen-32b[1125]
42.89
52.25
32.85
59.12
45.41
2...