@YKDZ 在个人不严谨盲测：ChatGPT 5.4 Xhigh VS DeepSeek V4 Pro 中发帖叠甲：这是本人第一次尝试横向评估模型能力，测试方式可能有明显的不严谨，仅作为分享，大家看个乐子即可测试结果省流没有明确的代码规划，在仓库中从零开始自由发挥的情况下，V4 和 5.4 的代码能力有明显可见的差距

@YKDZ 在个人不严谨盲测：ChatGPT 5.4 Xhigh VS DeepSeek V4 Pro 中发帖

叠甲：这是本人第一次尝试横向评估模型能力，测试方式可能有明显的不严谨，仅作为分享，大家看个乐子即可 

测试结果


省流
没有明确的代码规划，在仓库中从零开始自由发挥的情况下，V4 和 5.4 的代码能力有明显可见的差距。 
实际上还应测试： 


有明确规划的情况下，长期遵循规划的能力 


根据代码库 + 需求编写具体的规划的能力 


Brainstorm 能力 


才能对整体的代码能力有一个准确的评估。