@ailinux 在 claude4.7预测数据vs真实体验 中发帖
[image]
类别
含义
Agentic coding
AI像程序员一样自动写代码+执行任务
Agentic terminal coding
在终端环境里操作、调试代码
Multidisciplinary reasoning
跨学科推理(类似“人类终极考试”)
Agentic search
自主搜索并整合信息
Scaled tool use
调用工具能力(API / 外部工具)
Cybersecurity
安全漏洞分析
GPQA
研究生级别推理(非常难)
Visual reasoning
图像理解推理
MMLU
通识知识考试
4.7在coding能力测试上有着10%的提升,不知道大家真实体验如何?可否在帖子下分享你的体验?