koboling 在为啥感觉大家的基准测试都是各测各的中发帖glm5就说无限逼近opus4.5了，现在glm5.1又说无限逼近opus4.6

koboling 在为啥感觉大家的基准测试都是各测各的中发帖

glm5就说无限逼近opus4.5了，现在glm5.1又说无限逼近opus4.6。 
有说是测试标准不同，给的提示词不一样，表现也不一样。这我倒是能理解。 
还有总是会有的降智说法，这个我也感受过。 
我只是有个问题就是，是否真的有可能存在一种可靠的可量化的评价ai各方面能力的标准测试。