小白 (@lop)为什么livebench上mini的Reasoning Average 比4.1还高? 中发帖

[image] 
还有什么其他客观一点的榜单吗