koboling 在 为啥感觉大家的基准测试都是各测各的 中发帖
glm5就说无限逼近opus4.5了,现在glm5.1又说无限逼近opus4.6。
有说是测试标准不同,给的提示词不一样,表现也不一样。这我倒是能理解。
还有总是会有的降智说法,这个我也感受过。
我只是有个问题就是,是否真的有可能存在一种可靠的可量化的评价ai各方面能力的标准测试。