何夕2077 (@justlikemaki)何夕2077的AI日报 2025/07/06 Grok 4 在HLE中取得了高达45%的惊人成绩 中发帖

AI内容摘要
Grok 4模型测试表现出色,AI研究如MAS-GPT不断创新。
然而,AI模型易受无关信息干扰;AI内容泛滥正损害学术与社会公信力。
AI引发科技业裁员潮及产品定价争议,但也正重塑内容创作与行业发展。

AI产品与功能更新

Grok 4和Grok 4 Code的基准测试结果似乎曝光了!😲 Grok 4在HLE(人类最后考试)中竟然取得了高达45%的惊人成绩,在GPQA和AIME '25等测试中也表现出色,远超或与多数竞争对手持平。尽管有网友质疑HLE高分可能存在测试差异,但如果这些数据属实,Grok 4无疑将是AI大模型发展的一大步!让我们拭目以待xAI的官方验证吧。🚀 更多详情
[图片]

AI前沿研究


上海交通大学等机构联合推出了MAS-GPT项目,旨在解决复杂的多智能体系统(MAS)构建难题。它采用生成式MAS设计范式,只需一句Query就能自动生成整...