OpenAI_Q-Star 在 看了最新的livebench评分吗? 中发帖
新题型之下多数模型表现也下跌 Gemini 2.5 pro exp 和 o3 mini high
等推理模型跌幅较低
不明白为什么gemini 2.5 pro exp 在编码方面由85.87降至58.09
新题型之下多数模型表现也下跌 Gemini 2.5 pro exp 和 o3 mini high
等推理模型跌幅较低
不明白为什么gemini 2.5 pro exp 在编码方面由85.87降至58.09