liulapatuoni使用“网红物理题”同时测试模型的STEM水平和图片解析能力 中发帖

@yeahhe 可考虑收录?题目及配图为: 

一个天平两端放了两个烧杯,装有相同体积的水,左边水里有一个乒乓球,被绳子悬在杯底,右边有一个铁球,被绳子吊在杯中,乒乓球和铁球体积相同。
请思考:天平哪边会下沉?
[5756460ec27a429e918e5d056ef756db.jpeg]

标准答案,右边更重:

解释
测试起因是在o1-preview发布时,因为无法处理图片,发现只用普通的文本描述,模型很难理解该题的题干条件。
但r1-lite、o1和thinking-flash2.0现在都支持处理图片,所以简单又跑了一下
虽然这是个高中理科级别问题,但是没想到,thinking-flash2.0直接答错,r1-lite答对但解释错误(应该是),o1完全正确

thinking-flash2.0

r1-lite