dianjinqu 在 一张图测试ai识图能力(真·识图,我看了一些别的识图帖子,要不就是太老,要不就是没意义) 中发帖
测试图片:
[09f70d93e620cca4dcf230e413af9c9f]
三种颜色需要模型准确判断:①亮色的火柴棍,即可以移动的火柴棍;②暗色的火柴棍,即不可以移动的火柴棍;③灰色,即没有火柴棍的占位。(允许模型判断不出②,因为可以理解为默认)
实际上,测试的应该是模型的“识图➕思考”拼接能力。模型需要识别出三种不同的颜色,并且思考深度要达到这一层。很难有模型直接思考到这一层,需要足够细致且不断纠错。
部分结果:
国产主流模型:
豆包(专家级模型,注意必须“专家级模型”)竟然可以顺利完成,惊讶了🤣,也是思考了很多次,其实就是模型不断纠错,按颜色等信息判断哪里有火柴哪里没有的过程;
[ed3639865866bef2c0d12653428f8d28]
kimi一直也不让用思考,说高峰时段算力不足(我也不知道为什么天天算力不足),我觉得kimi的识图能力应该也可以完...