是丸子! (@Ones_Zhang)有什么图像理解更棒的模型吗? 中发帖

有什么识别并且理解能力很棒的模型吗? 
当前测试了qwen-vl-max、doubao-1-5-vision-pro-32k-250115
这两个模型各有优劣
doubao 对很模糊的图像识别不好,对模糊图像提取不到我想要的关键词,很听话,完全按照要求的格式以及要求返回,甚至感觉比较聪明
qwen 对模糊图像理解能力很好,但是呆呆的,不听话,动不动就不按照要求返回了。
还有什么更合适这个场景的模型吗?
提示词如下:
提取图片中的内容,有则提取,无则赋空值,注意可能存在多项,有些图片的物料会显示有“无发票数量(0.000)”则忽略该文字上方一行的数据,不提取。有些图片数据是这样的12014720 00010934521Y01 241204 … 前面三个分别对应物料号、批次、供应商批号,中间的批次请忽略,批号才是我们要的批号!!!需包含以下参数:商品名,物料号,批号,发票号码,生产厂商...