@HCPTangHY 在 Flash登顶？Mercor发布APEX-Agents基准测试：Gemini 3 Flash与GPT-5.2领跑专业Agent 中发帖初创公司Mercor正式发布了名为“AI代理生产力指数”（APEX-Agents）的全新基准测试

@HCPTangHY 在 Flash登顶？Mercor发布APEX-Agents基准测试：Gemini 3 Flash与GPT-5.2领跑专业Agent 中发帖

初创公司Mercor正式发布了名为“AI代理生产力指数”（APEX-Agents）的全新基准测试。该测试用以评估AI Agent在投资银行、管理咨询和法律服务等专业领域的长周期、跨应用任务执行能力。目前，Gemini 3 Flash（高思考）以24.0%的胜率位居榜首，GPT-5.2（高思考）以23.0%紧随其后。 
 [image] 
APEX-Agents基准测试由256名具有平均12.9年从业经验的资深专业人士共同构建，包含480个复杂任务和33个模拟真实办公环境。这些任务要求AI像真实的分析师或律师一样，在无人工干预的情况下，自动操作日历、邮件、代码、表格及PPT等等。测试结果显示，尽管顶尖闭源模型表现出色，但开源模型如GPT-OSS-120B和Kimi K2 Thinking的胜率均低于5%。 
目前，Mercor已将APEX-Agents基准数据集及其配套的代码在GitHub上...