@sparklydream 在 【SNSE Bench】DeepSeek V4 Flash 倒数第二? 中发帖
结论:DeepSeek-V4-Flash 出现了严重的 overthinking。
[图片]
使用 DeepSeek 官方 API 测试,思考强度为 Max。
可以看到,在 12 道题目中,V4-Flash 只在 5 道题目中输出了代码,在剩余的 7 道题目中思维链全部超过了 128k 上限被截断。相比之下,在 V4 尚未发布时网页端的灰测模型都获得了 141 分,发布后的快速模式获得了 215 分——网页端的这两个模型至少面对题目能正常地输出一份代码,且有一定可能获得部分分数。
由于这种严重的 overthinking,V4-Flash 在当前的榜单中排名倒数第二,仅优于 Hy-3-Preview。
在昨天发布的 V4-Pro 的成绩中,3 道题目也出现了 CoT 超过长度限制的情况。而 Flash 作为参数量较小的模型,对于题目的直觉比 V4-Pro 更差,token 效率更...