@PSP 在 新模型-Gemini 2.0 Flash Thinking-APP,推理能力进步明显,在AIME 2025 追上o3-mini(中等) 中发帖
期待它在 Livebench 上进行评级,以及在实验室的更新。
Gemini 应用程序的新闪光思维在推理能力上比 01-21 显著更强,在 AIME 2025 上的表现接近 o3-mini (med) : r/Bard — New Flashing Thinking on Gemini app is significantly stronger at reasoning than 01-21, performs close to o3-mini (med) on AIME 2025 : r/Bard
[image]