Abc (@egg)Gemini 3.1 Pro(High)在实际工作中的和Claude Opus 4.6(Thinking)的对比 中发帖

早上在实际项目中进行使用后,结果不尽人意。 
先让3.1进行接续上个对话进行工作,并先让她了解整个系统,和注意要点。工作完成后,调用Claude Opus 4.6(Thinking)进行评估和对比。结果如下:
一、总体评价
结论:功能目标达成,但执行过程暴露出明显的"试错驱动"倾向,核心设计有一个重要的架构错位。




维度
评分 (10)
说明




代码质量
6.0
注入点重复造轮子(未使用已有的 director_brief.py#61-96) 等方法)


测试质量
4.5
测试经历了 8 轮 fix-rerun,暴露对源码理解不足


文档质量
5.5
XXX_功能文档.md 仅 34 行,缺少决策反思;文档有冗余


Pn-opt 实施
6.5
系统导向追加合理,但 power_levels 拼接方式脆弱


Pn 规划
7.0
三个方向判断准确,但方案 A 缺乏对 X...