@JayNing 在 Gemini 2.5pro已经把o3杀的人仰马翻了中发帖这次Google发布的Gemini 2.5版本就是之前给出的Gemini-2.5-pro-0605 我们可以通过几张图来对比一下图一: [c8557a2e3aa399c6ed64b6add97bf66] 图2: [a2468bf8e05ab986dd1d8c5969c13f8] 我们可以看到的是Google其实有刷榜的能力比起前两个版本部分标准测评的分数有所下降. 但Google并没有选择这样做, 那Google做了什么呢在我看来是这次多出来的FACTS Grounding分数(这部分是检测幻觉的) 我们可以看到的是如果看simpleQA grok没变 o3是49.4%->48.6% 2.5pro是50.08%->54.0% 如果看FACTS Grounding o1->o3是78.8%->69.6% 1.5pro->2.5pro是81.2%->87...

@JayNing 在 Gemini 2.5pro已经把o3杀的人仰马翻了中发帖

这次Google发布的Gemini 2.5版本就是之前给出的Gemini-2.5-pro-0605 
我们可以通过几张图来对比一下 
图一: 
 [c8557a2e3aa399c6ed64b6add97bf66] 
图2: 
[a2468bf8e05ab986dd1d8c5969c13f8] 
我们可以看到的是Google其实有刷榜的能力 比起前两个版本部分标准测评的分数有所下降. 但Google并没有选择这样做, 那Google做了什么呢 在我看来是这次多出来的FACTS Grounding分数(这部分是检测幻觉的) 

我们可以看到的是 
如果看simpleQA 
grok没变 
o3是49.4%->48.6% 
2.5pro是50.08%->54.0% 
如果看FACTS Grounding 
o1->o3是78.8%->69.6% 
1.5pro->2.5pro是81.2%->87...