@HCPTangHY 在 GLM 5.1测评：第一梯队的敲门砖中发帖先放bench [image] 赶超了四个月前的模型opus 4.5（不过当时使用反重力测试的，可能会有一些差别）但是和4.5系列一个梯队是没问题的代码水平中等偏上 [image] 一些实现的想法很好，但会被小bug绊住 [image] bench内题目需要被返修的也显著减少 [image] 但是问题也很显著，GLM 5.1会在思维链中大量打草稿，导致经常爆思考

@HCPTangHY 在 GLM 5.1测评：第一梯队的敲门砖中发帖

先放bench 
 [image] 
赶超了四个月前的模型opus 4.5（不过当时使用反重力测试的，可能会有一些差别） 
但是和4.5系列一个梯队是没问题的 
代码水平中等偏上 
 [image] 
一些实现的想法很好，但会被小bug绊住 
[image] 
bench内题目需要被返修的也显著减少 
[image] 


但是问题也很显著，GLM 5.1会在思维链中大量打草稿，导致经常爆思考。如果是出字了爆还能继续，在思维链里把token耗尽就只能reroll了 
如果开源的话可以夸一夸智谱，如果闭源还涨价我要骂了（） 
 [image] 
现在有点试探市场反应的意味呢