MastreinaLiveBench 更新了 o1-2024-12-17-high 的得分 中发帖

在 o1 的API中,OpenAI 添加了新的可选参数 reasoning_effort,用于控制模型在推理过程中的努力程度: 
[image]
因此,继LiveBench上次更新后,今天更新了 o1 high 的新得分:
[image]
看来之前的结果应该是默认参数medium。不难发现,high 模式下的 o1 有且仅有在数学子类别上取得了提升(67.32 → 80.32),这也让总分提高了2.1分。