@sparklydream 在 【SNSE Bench】更新 Qwen3.7-Plus 中发帖
前情回顾
[图片]
Qwen3.7-Plus 与 DeepSeek-V4-Flash 类似,有一定的 overthinking。但其症状较轻,只在 T6 与 T7 两题出现思维链超限的情况。
另外 Qwen3.7-Plus 是目前所有模型中编译错误最严重的模型,其交出的十份代码中有四份无法通过编译。T1、T12 中都出现了头文件缺失,T3、T8 自作聪明加了几行 #pragma,然后莫名其妙地 CE 了。