@darklinden 在 除了OAI和A\竟然没有训练vision像素级识别的吗? 中发帖
其实一开始的需求就一个————让ai替代UI仔的拼界面工作,有设计图和切图,在工程内用切图和代码拼出来设计图像素级匹配的界面
一开始的设想是写个工具使用opencv模板匹配,识别位置准确度极高但是识别率低
然后拿yolo做补充,吭哧吭哧训练好久不说,准确度也低了,识别率也没提上来
本地搭多模态llm,Gemma4和Qwen3.5都试了,询问附件图片的大小都读不出来,更不用说询问控件在图片内的位置了
一咬牙大不了加钱,但是一路测试下来,只有gpt和sonnet及以上的多模态可以像素级读图,比如两张图发过去问第一张图在第二张中出现的位置和大小,虽然和opencv有一两个像素的差别但已经是天才级的猛男了…
别的模型没见到能读准像素位的,瘸子里的将军是kimi2.6,但也是1024图片能误差30+像素…别的上来宽180的图片跟你说长度1000,长度512的一堆一堆…
群友有吐槽你去问百...