@PSP 在新模型-Gemini 2.0 Flash Thinking-APP，推理能力进步明显，在AIME 2025 追上o3-mini（中等）中发帖期待它在 Livebench 上进行评级，以及在实验室的更新

@PSP 在新模型-Gemini 2.0 Flash Thinking-APP，推理能力进步明显，在AIME 2025 追上o3-mini（中等）中发帖

期待它在 Livebench 上进行评级，以及在实验室的更新。 
Gemini 应用程序的新闪光思维在推理能力上比 01-21 显著更强，在 AIME 2025 上的表现接近 o3-mini (med) : r/Bard — New Flashing Thinking on Gemini app is significantly stronger at reasoning than 01-21, performs close to o3-mini (med) on AIME 2025 : r/Bard 
 [image]