@JayNingGemini 2.5pro已经把o3杀的人仰马翻了 中发帖

这次Google发布的Gemini 2.5版本就是之前给出的Gemini-2.5-pro-0605 
我们可以通过几张图来对比一下
图一:
[c8557a2e3aa399c6ed64b6add97bf66]
图2:
[a2468bf8e05ab986dd1d8c5969c13f8]
我们可以看到的是Google其实有刷榜的能力 比起前两个版本部分标准测评的分数有所下降. 但Google并没有选择这样做, 那Google做了什么呢 在我看来是这次多出来的FACTS Grounding分数(这部分是检测幻觉的)

我们可以看到的是
如果看simpleQA
grok没变
o3是49.4%->48.6%
2.5pro是50.08%->54.0%
如果看FACTS Grounding
o1->o3是78.8%->69.6%
1.5pro->2.5pro是81.2%->87...