@pigbird写个小测评:AI处理拍照表格转制式文本的效果(gemini/gpt/豆包/阶跃/千问) 中发帖

省流:这次测试最让我惊喜的是豆包,它已经不只是在“读图”,而是在“理解图”。通过逻辑推理发现 OCR 过程中的不合理并自我修正,这种空间推理能力确实走在了前面。 
[image]
刚好有个工作,同事将一个纸质版表格拍给我(截图君一脸问号?)要转换为一个通知文本。
我太懒了就想让AI来完成,然后就发给了gemini,发现效果有点点问题,就把什么chatgpt、千问、豆包、阶跃星辰试了一遍。所以有这篇对比(水一贴)
首先是gemini,用的是flash思考,文字表达比较清晰,但是人数识别有问题,部分单位出现了错位。
[276335a2ff87209cef20561464f48d0a]
接下来用了千问APP打开深度思考,文风没问题,人数识别也没问题,但是但是他居然对其中一个单位名字识别出现了幻觉,变成了一个不知道哪来的名字,满分直接变不及格。
[d09e7d16a1fd2fb482...