@Arthur63 在 x.ai 的 grok-2 和 grok-2-mini 是什么水平？中发帖lmsys 上 grok 排名不可谓不高，那么它解决问题的能力到底排什么水平？今天照例翻看 livebench 排行榜，发现官方已经测试了这两个模型，下面是测试结果： [image] 结论：一坨

@Arthur63 在 x.ai 的 grok-2 和 grok-2-mini 是什么水平？中发帖

lmsys 上 grok 排名不可谓不高，那么它解决问题的能力到底排什么水平？ 
今天照例翻看 livebench 排行榜，发现官方已经测试了这两个模型，下面是测试结果： 
 [image] 
结论：一坨。grok-2-mini 是 gpt-4o-mini 水平，grok-2 是 llama-3.1-70b 水平。而且这俩模型没有区分度，跑分十分接近。