冰原Bill (@yb3712590) 在 拿小米、deepseek、glm同时review gpt-5.5写的代码,小米的表现也太夸张了吧 中发帖
这是gpt-5.5@xhigh一批8次提交写的爬虫-解析-落库流水线代码,流程和功能都不复杂。
因为各家模型的思考强度映射不一样,统一开了max effort。
小米耗时4分钟
全程在说对对对干得好,最后挑了点无关痛痒的代码风格小毛病。
DSV4耗时12分钟
找到了一些非关键问题。
GLM5.1耗时30分钟(和TPS慢也有关系)
主动调动了最多的subagents,找出了影响功能的关键问题。
最后是gpt基于这三份报告再自己review和打分,额外找到了一个关键问题(但是有了其他模型的既有工作,这里不能算gpt最强)。
报告
分数
评价
phase4_glm.md
80/100
最有价值。抓到了 CrossValidator 未接入,这是关键验收缺口。但把 evidence_grade() 枚举问题评成 Critical 偏重;compliance_ru...