变色龙 (@bianselong) 在 68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩中发帖它指出，如今被视为 LLM 领域首选排行榜的 Chatbot Arena，存在诸多系统问题

变色龙 (@bianselong) 在 68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩中发帖

它指出，如今被视为 LLM 领域首选排行榜的 Chatbot Arena，存在诸多系统问题。比如： 

少数大厂可以私下测试多个模型版本，Llama4 在发布前甚至测了 27 个版本，然后只公开最佳表现。
数据访问不平等，专有模型获得的用户反馈数据显著多于开源模型。
试用 Arena 数据训练，可提升模型性能高达 112%。
205 个模型被悄悄静默弃用，远超过官方列出的 47 个。 68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩 - IT之家