小诗音 (@mingliao) 在 MiniCPM3-4B模型LiveBench性能测评中发帖[QQ_1725608814349] ########## All Groups ########## category average coding data_analysis instruction_following language math reasoning model minicpm3 21.3 17.8 13.8 56.9 5.3 16.9 17.3 表现在同量级模型表现比较好的分类有reasoning, coding, math, instruction_following，都能算的上是用更少的尺寸做到了差不多甚至更好的性能, 不过data_analysis和language这两项表现就差一些了,拉低了平均分数

小诗音 (@mingliao) 在 MiniCPM3-4B模型LiveBench性能测评中发帖

[QQ_1725608814349] 
########## All Groups ########## 
category  average  coding  data_analysis  instruction_following  language  math  reasoning 
model 
minicpm3     21.3    17.8           13.8                   56.9       5.3  16.9       17.3 
表现在同量级模型表现比较好的分类有reasoning, coding, math, instruction_following，都能算的上是用更少的尺寸做到了差不多甚至更好的性能, 不过data_analysis和language这两项表现就差一些了,拉低了平均分数。 
目前来看同尺寸下, 微软的Phi-3...