Mr.T (@v0v) 在 有什么比较权威公正的平台测评大模型能力? 中发帖
现在大模型跑分有可能是被注水的,也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜,也有各种野榜或者是那种商业平台刷榜花钱定制冠军,让人难以分辨,有没有公认比较公正无商业化的测评平台
现在大模型跑分有可能是被注水的,也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜,也有各种野榜或者是那种商业平台刷榜花钱定制冠军,让人难以分辨,有没有公认比较公正无商业化的测评平台