@dwqxq1 在 Deepseek R1 vs O3 mini 的LLM Arena结果出来了 中发帖
LLM Arena与其他绝大部分固定题目的benchmark不同
是使用真人不显示模型名AB盲测的选哪个结果好方式,
可能是现阶段用来避免刷题背题库,反作弊的最好办法
[微信图片_20250210130136]
[微信图片_20250210130654]