OpenAI_Q-Star看了最新的livebench评分吗? 中发帖

新题型之下多数模型表现也下跌 Gemini 2.5 pro exp 和 o3 mini high 
等推理模型跌幅较低
不明白为什么gemini 2.5 pro exp 在编码方面由85.87降至58.09