@blacksein如何更客观地看待国产开源模型与顶级闭源模型的差距?我的几个观点 中发帖

因为自己贫瘠的表达能力,上个帖子因为措辞不太准确导致带有一定的倾向性被删除了,认真回复的佬们实在对不起了。 🙂‍↕️ 🙂‍↕️ 
重新组织了下语言,想把这个观点说清楚。

国产开源模型发布时,习惯性拿顶级(或者次顶级,比如qwen 3.6 plus对标的是Opus 4.5而不是4.6)商业闭源模型来做对比,这本身其实并不奇怪,因为顶级模型本来就是它们追赶的目标,发布时拿最强的对手来展示进步幅度,也是一种很常见的表达方式。
问题不在于“和顶级比”,而在于很多人会把某些benchmark接近直接理解成整体能力已经追平,这里面其实有很大的偏差。
(注意我不在这里讨论关于benchmark过拟合等问题,这个不是我要讨论的范围。)
benchmark接近,通常只能说明模型在特定方向上已经缩小了差距,但这并不意味着在真实使用里,特别是大任务,复杂任务,需要长时间运行的agent等更加极致的场景...