@CNJK49 在百度文心一言4.5再现了统计学新闻学的魅力时刻中发帖目前各大评测应该还没出来，简单看了下百度自己发的性能评估：以下都来源于官方数据大家注意看啊：百度的4.5： [f9c30d75ec9b263deb9baf5e0d57fa24] deepseek V3的： [deepseek] 阿里Qwen max的： [qwen] 大家发现什么猫腻没：另外两家都包含评估的标准数据集上的每一个子项的得分，只有百度，这里加一下那里减一下，最后一平均，哎呦不好意思，我最高

@CNJK49 在百度文心一言4.5再现了统计学新闻学的魅力时刻中发帖

目前各大评测应该还没出来，简单看了下百度自己发的性能评估： 
以下都来源于官方数据 
大家注意看啊： 
百度的4.5： 
 [f9c30d75ec9b263deb9baf5e0d57fa24] 
deepseek V3的： 
 [deepseek] 
阿里Qwen max的： 
 [qwen] 
大家发现什么猫腻没：另外两家都包含评估的标准数据集上的每一个子项的得分，只有百度，这里加一下那里减一下，最后一平均，哎呦不好意思，我最高。 
另外，百度4.5评测的基准有点多啊，不会是靠几个野生数据集把均分拉高吧 😇 
对比的GPT 4o也不敢说具体是什么版本的，总不能对比2024年3月那个时候的GPT 4o吧，人家GPT 4o也在滚动升级啊。doubao对比GPT 4o可是明确说了对比的是GPT4o-0806。 
百度这水分，太大了。 
另外百度的推理模型X1，直接不敢放评测结果，人家deeps...