RenQirui 在 # DeepSeek v4 基准测试结果泄露,你认为技术圈会有什么反应? 中发帖
DeepSeek v4 基准测试结果泄露,你认为技术圈会有什么反应?
太突然,来不及排版了
DeepSeek V4 基准测试结果刚刚泄露。
SWE-Bench 验证通过率为 83.7%。
那它将成为世界上最好的编码模型。
背景信息:
DeepSeek V3.2 Thinking:73.1%;
GPT 5.2 High:80.0%;
Kimi K2.5 Thinking:76.8%;
Gemini 3.0 Pro:76.2%
这不仅仅是编写代码。
看看剩下的部分:
AIME 2026:99.4%;
FrontierMath Tier 4:23.5%(比 GPT 5.2 高 11 倍);
IMO Answer Bench:88.4%
如果这些数字属实,DeepSeek V4 即将刷新排行榜。
我们会再次遭遇Deepseek潮吗?