变色龙 (@bianselong)68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩 中发帖

它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如: 

少数大厂可以私下测试多个模型版本,Llama4 在发布前甚至测了 27 个版本,然后只公开最佳表现。
数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。
试用 Arena 数据训练,可提升模型性能高达 112%。
205 个模型被悄悄静默弃用,远超过官方列出的 47 个。 68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩 - IT之家