@CNJK49百度文心一言4.5再现了统计学新闻学的魅力时刻 中发帖

目前各大评测应该还没出来,简单看了下百度自己发的性能评估: 
以下都来源于官方数据
大家注意看啊:
百度的4.5:
[f9c30d75ec9b263deb9baf5e0d57fa24]
deepseek V3的:
[deepseek]
阿里Qwen max的:
[qwen]
大家发现什么猫腻没:另外两家都包含评估的标准数据集上的每一个子项的得分,只有百度,这里加一下那里减一下,最后一平均,哎呦不好意思,我最高。
另外,百度4.5评测的基准有点多啊,不会是靠几个野生数据集把均分拉高吧 😇
对比的GPT 4o也不敢说具体是什么版本的,总不能对比2024年3月那个时候的GPT 4o吧,人家GPT 4o也在滚动升级啊。doubao对比GPT 4o可是明确说了对比的是GPT4o-0806。
百度这水分,太大了。
另外百度的推理模型X1,直接不敢放评测结果,人家deeps...