@sparklydream 在【SNSE Bench】DeepSeek V4 Flash 倒数第二？中发帖结论：DeepSeek-V4-Flash 出现了严重的 overthinking

@sparklydream 在【SNSE Bench】DeepSeek V4 Flash 倒数第二？中发帖

结论：DeepSeek-V4-Flash 出现了严重的 overthinking。 
[图片] 
使用 DeepSeek 官方 API 测试，思考强度为 Max。 
可以看到，在 12 道题目中，V4-Flash 只在 5 道题目中输出了代码，在剩余的 7 道题目中思维链全部超过了 128k 上限被截断。相比之下，在 V4 尚未发布时网页端的灰测模型都获得了 141 分，发布后的快速模式获得了 215 分——网页端的这两个模型至少面对题目能正常地输出一份代码，且有一定可能获得部分分数。 
由于这种严重的 overthinking，V4-Flash 在当前的榜单中排名倒数第二，仅优于 Hy-3-Preview。 
在昨天发布的 V4-Pro 的成绩中，3 道题目也出现了 CoT 超过长度限制的情况。而 Flash 作为参数量较小的模型，对于题目的直觉比 V4-Pro 更差，token 效率更...