Jayden (@jayden333hhh) 在 aistupidlevel 这个榜怎么样 中发帖
感觉aistupidlevel 这个榜不能完全的反映出当下模型能力评分,至少是没充钱这样用下来是这样。
而且不清楚评分的时效性是怎么算的,外面榜单的这个评分是一个评分
[image]
然后点进去具体模型的评分此时此刻是一样的(现在 opus 4.8 外面和明细显示 06-19 10 点 的综合评分是 62),直到下个时点评分出来之后,在明细里面看回 10 点的评分他就不是当初 62 了。
[image]
并且最右边的多指标综合评分跟中间榜单不一样的,我理解是这个体现的是模型上限,显示的是最新一次单测的模型能力,但是持续观察下来发现这边的评分是很稳定的。那么中间榜单的评分又是怎么加权算出来的,这很难理解。
或者是我对各项数据指标理解有问题,也希望佬们多指正,主要是想问问佬们对这个站的数据有什么看法。