mason (@mason_wh) 在 OpenAI对各行各业工作的AI替代评估 中发帖
该研究覆盖了在美国GDP中占比较大的九个商业领域,涉及44个职业中的1300项工作任务。研究发现,AI模型执行职业任务的能力几乎已与人类专业人士相当。
原文:https://zhuanlan.zhihu.com/p/1956340658328539184
“我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,”作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。
更快更便宜:更重要的是,“我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。”
GDPval包含哪些类型的工作?
• 房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。
• 政府部门:娱乐工作者;合规官员;警察和侦探...