@blacksein 在如何更客观地看待国产开源模型与顶级闭源模型的差距？我的几个观点中发帖因为自己贫瘠的表达能力，上个帖子因为措辞不太准确导致带有一定的倾向性被删除了，认真回复的佬们实在对不起了

@blacksein 在如何更客观地看待国产开源模型与顶级闭源模型的差距？我的几个观点中发帖

因为自己贫瘠的表达能力，上个帖子因为措辞不太准确导致带有一定的倾向性被删除了，认真回复的佬们实在对不起了。 🙂‍↕️ 🙂‍↕️ 
重新组织了下语言，想把这个观点说清楚。 

国产开源模型发布时，习惯性拿顶级（或者次顶级，比如qwen 3.6 plus对标的是Opus 4.5而不是4.6）商业闭源模型来做对比，这本身其实并不奇怪，因为顶级模型本来就是它们追赶的目标，发布时拿最强的对手来展示进步幅度，也是一种很常见的表达方式。 
问题不在于“和顶级比”，而在于很多人会把某些benchmark接近直接理解成整体能力已经追平，这里面其实有很大的偏差。 
（注意我不在这里讨论关于benchmark过拟合等问题，这个不是我要讨论的范围。） 
benchmark接近，通常只能说明模型在特定方向上已经缩小了差距，但这并不意味着在真实使用里，特别是大任务，复杂任务，需要长时间运行的agent等更加极致的场景...