@Arthur63 在 x.ai 的 grok-2 和 grok-2-mini 是什么水平? 中发帖
lmsys 上 grok 排名不可谓不高,那么它解决问题的能力到底排什么水平?
今天照例翻看 livebench 排行榜,发现官方已经测试了这两个模型,下面是测试结果:
[image]
结论:一坨。grok-2-mini 是 gpt-4o-mini 水平,grok-2 是 llama-3.1-70b 水平。而且这俩模型没有区分度,跑分十分接近。