IfElse (@user269) 在 DeepSeek-V4-Pro Benchmark简单解读 中发帖
跑分对比表
加粗为该行最高分。
| 类别 | 基准测试 | 指标 | 测什么 | DS-V4-Pro Max | DS-V4-Flash Max | Kimi K2.6 | GLM-5.1 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|—|—|—|—|—|—|—|—|—|—|—|
| 知识与推理 | MMLU-Pro | EM | 57+学科通用知识广度 | 87.5 | 86.2 | 87.1 | 86.0 | 89.1 | 87.5 | 91.0 |
| | SimpleQA-Verified | Pass@1 | 事实性问答,检测幻觉 | 57.9 | 34.1 | 36.9 | 38.1 | 46.2 | 45.3 | 75.6 |
| | Chinese-SimpleQA | Pass@1 | 中文事实性...