温州程序员劝退师 (@Das) 在让模型能摸到浏览器 -- chrome-devtools 中发帖从这个帖子的延伸：首先我还是维持我的观点，纯文本大模型（现在使用编程推理输出所使用的模型）无法看到图片，它是由多模态模型对图片进行描述后用文字传达感知的，在给定图片时，路径依然是图片 → 文字 → 推理

温州程序员劝退师 (@Das) 在让模型能摸到浏览器 -- chrome-devtools 中发帖

从这个帖子的延伸： 

首先我还是维持我的观点，纯文本大模型（现在使用编程推理输出所使用的模型）无法看到图片，它是由多模态模型对图片进行描述后用文字传达感知的，在给定图片时，路径依然是 图片 → 文字 → 推理。不过相信这个能力在近两年会很快对齐。 
昨天在做完这个回答后，我正好手里有个 tauri-app 做完了等待测试，于是我想着，是不是能让 AI 去做这个事情。在测试安装了几个 tauri 相关 MCP 后，无法达到理想的效果，所以还是把页面改成 WEB 端，使用谷歌自家的 Chrome DevTools MCP 进行盲测。 
详细的使用和说明参见压缩包里两个 markdown 文中不再赘述 
chrome-devtools.zip (11.9 KB) 
总体来说，借助这个 MCP 初步能到达模拟测试人员进行黑盒功能测试，但是有一些小缺陷： 

每一步都要进行思考，比测试人员慢
To...