@Zeropo 在 智谱真成了!Coding真正意义上超越了国模最严厉的父亲Sonnet 4.5 中发帖
[image]
测评网址: LLM Benchmark Dashboard
榜单作者知乎@toyama nao,在L站应该也有不少同学看过他的大模型测评,纯私有题库,很多人评价符合体感,他也是今天测了一天跑完了GLM5.1的Coding,关于这个代码V3榜单这个链接有详细介绍:
大模型编程应用测试-V3榜单 - 知乎
表中分数为扣分,越低越好,英文单词FAILED即字面意思无法完成项目(括号中为完成步骤),项目整体还是比较难的,GLM5.1之前的国模基本无法完全实现三个测试项目,这次5.1终于是三个全通过了,且总扣分明显于Sonnet4.5,离真神Opus4.6当然还有明显差距,也不用听官方吹多接近,但是真正超过了Sonnet4.5,可谓意义重大,国模真的追上来了!