@darklinden 在除了OAI和A\竟然没有训练vision像素级识别的吗？中发帖其实一开始的需求就一个————让ai替代UI仔的拼界面工作，有设计图和切图，在工程内用切图和代码拼出来设计图像素级匹配的界面一开始的设想是写个工具使用opencv模板匹配，识别位置准确度极高但是识别率低然后拿yolo做补充，吭哧吭哧训练好久不说，准确度也低了，识别率也没提上来本地搭多模态llm，Gemma4和Qwen3.5都试了，询问附件图片的大小都读不出来，更不用说询问控件在图片内的位置了一咬牙大不了加钱，但是一路测试下来，只有gpt和sonnet及以上的多模态可以像素级读图，比如两张图发过去问第一张图在第二张中出现的位置和大小，虽然和opencv有一两个像素的差别但已经是天才级的猛男了… 别的模型没见到能读准像素位的，瘸子里的将军是kimi2.6，但也是1024图片能误差30+像素…别的上来宽180的图片跟你说长度1000，长度512的一堆一堆… 群友有吐槽你去问百...

@darklinden 在除了OAI和A\竟然没有训练vision像素级识别的吗？中发帖

其实一开始的需求就一个————让ai替代UI仔的拼界面工作，有设计图和切图，在工程内用切图和代码拼出来设计图像素级匹配的界面 
一开始的设想是写个工具使用opencv模板匹配，识别位置准确度极高但是识别率低 
然后拿yolo做补充，吭哧吭哧训练好久不说，准确度也低了，识别率也没提上来 
本地搭多模态llm，Gemma4和Qwen3.5都试了，询问附件图片的大小都读不出来，更不用说询问控件在图片内的位置了 
一咬牙大不了加钱，但是一路测试下来，只有gpt和sonnet及以上的多模态可以像素级读图，比如两张图发过去问第一张图在第二张中出现的位置和大小，虽然和opencv有一两个像素的差别但已经是天才级的猛男了… 
别的模型没见到能读准像素位的，瘸子里的将军是kimi2.6，但也是1024图片能误差30+像素…别的上来宽180的图片跟你说长度1000，长度512的一堆一堆… 
群友有吐槽你去问百...