小诗音 (@mingliao) 在 MiniCPM3-4B模型LiveBench性能测评 中发帖
[QQ_1725608814349]
########## All Groups ##########
category average coding data_analysis instruction_following language math reasoning
model
minicpm3 21.3 17.8 13.8 56.9 5.3 16.9 17.3
表现在同量级模型表现比较好的分类有reasoning, coding, math, instruction_following,都能算的上是用更少的尺寸做到了差不多甚至更好的性能, 不过data_analysis和language这两项表现就差一些了,拉低了平均分数。
目前来看同尺寸下, 微软的Phi-3...