@HCPTangHYFlash登顶?Mercor发布APEX-Agents基准测试:Gemini 3 Flash与GPT-5.2领跑专业Agent 中发帖

初创公司Mercor正式发布了名为“AI代理生产力指数”(APEX-Agents)的全新基准测试。该测试用以评估AI Agent在投资银行、管理咨询和法律服务等专业领域的长周期、跨应用任务执行能力。目前,Gemini 3 Flash(高思考)以24.0%的胜率位居榜首,GPT-5.2(高思考)以23.0%紧随其后。 
[image]
APEX-Agents基准测试由256名具有平均12.9年从业经验的资深专业人士共同构建,包含480个复杂任务和33个模拟真实办公环境。这些任务要求AI像真实的分析师或律师一样,在无人工干预的情况下,自动操作日历、邮件、代码、表格及PPT等等。测试结果显示,尽管顶尖闭源模型表现出色,但开源模型如GPT-OSS-120B和Kimi K2 Thinking的胜率均低于5%。
目前,Mercor已将APEX-Agents基准数据集及其配套的代码在GitHub上...