CNM 在 livebench 偷偷给 R1 改分被我发现了 中发帖
😅
1125:
Model
Mathematics Average
AMPS_Hard
math_comp
olympiad
DeepSeek R1
80.71
88
88.542
65.597
0402:
Model
Mathematics Average
AMPS_Hard
math_comp
olympiad
DeepSeek R1
77.91
84
84.375
65.355
看起来很正常,
但是,AMPS_Hard 和 olympiad 测试集是没有任何变化的。其他模型分数也没有任何变化。
😅
可能有人要反驳,可能 R1 输出不稳定什么的,温度固定 0.6 调不了 0 什么的…
问题是 o 系列也调不了…
就算真能调 0 我不信其他模型分数一个小数点都不变。
😅
LiveBench 你几把要干啥,这是特地重测一次?
...