Smile Is Still 在 Humanity's Last Exam「人类最后的考试」,Grok 4「遥遥领先」? 中发帖
覆盖范围最广、难度最高的终极闭卷学术基准「人类最后的考试」(Human Last Exam,HLE),横跨100多个学科的2,500道专家级试题。
[PixPin_2025-07-08_09-16-26]
Grok 4紧随其后:
Grok 4跑分提前泄露,在「人类最后考试」中高达45%的得分,远超Gemini与Claude,成为当前测试中最强模型之一。马斯克表示Grok 4以「第一性原理」构建推理机制,Grok 4有望改写LLM格局。
马斯克Grok 4逆天跑分泄露,“人类最后考试”豪取45%全场第一-36氪