Andrej lmsys 的大模型竞技场修补规则后,gpt4o-mini 的排名掉了5位,到11了 中发帖

量子位这个有报道,lmsys公开了gpt4o-mini的battle数据集,发现之前的刷分来自于奥特曼的一些小技巧:格式排版,生成内容长度,模型拒绝回答率等。具体可参见链接: https://mp.weixin.qq.com/s/adpNAI4NBNKzxe6afpJXmQ。 
最近也有深圳的团队根据这个内容写了篇paper,说明这种问题其实也是机遇!