OpenAI_Q-Star 在看了最新的livebench评分吗？中发帖新题型之下多数模型表现也下跌 Gemini 2.5 pro exp 和 o3 mini high 等推理模型跌幅较低不明白为什么gemini 2.5 pro exp 在编码方面由85.87降至58.09

OpenAI_Q-Star 在看了最新的livebench评分吗？中发帖

新题型之下多数模型表现也下跌 Gemini 2.5 pro exp 和 o3 mini high 
等推理模型跌幅较低 
不明白为什么gemini 2.5 pro exp 在编码方面由85.87降至58.09