lishichu963 在 LiveBench的Coding Average的评价标准发生变化?排行榜分数因此巨变 中发帖
LiveBench是不是出问题了?
各个模型Code Avg分数都变了。我感觉变得不太合理。
gemini 2.5 pro 从80分降低到58分。
Claude 3.7 thinking 分数也很低。
我感觉这分数不符合我的使用体验,也和其他排行榜无法互相照应。