夜夜 (@vision9527) 在 💯 GPT-5.4视觉能力的惊喜中发帖早上起来刷到GPT-5.4发布的消息，看到文章里描述了关于Computer use and vision的描述，让我很惊喜！往常多模态是模型能够识别图片内容是什么，但让模型返回具体坐标是不准的

夜夜 (@vision9527) 在 💯 GPT-5.4视觉能力的惊喜中发帖

早上起来刷到GPT-5.4发布的消息，看到文章里描述了关于Computer use and vision的描述，让我很惊喜！ 
往常多模态是模型能够识别图片内容是什么，但让模型返回具体坐标是不准的。这么说可能不太好理解，直接上例子： 
sub-定位暂无代理几个字-gpt-5.2： 
 [sub-定位暂无代理几个字-gpt-5.2] 
sub-定位暂无代理几个字-gpt-5.4： 
[sub-定位暂无代理几个字-gpt-5.4] 
sub-定位中间的添加代理按钮-gpt-5.2： 
[sub-定位中间的添加代理按钮-gpt-5.2] 
sub-定位中间的添加代理按钮-gpt-5.4 
[sub-定位中间的添加代理按钮-gpt-5.4] 
以前模型知道这里有个按钮，但是缺了一只手来点击他理解的位置。而现在能精确返回坐标，只需要一套工具，就能真正意义上的操作电脑了。这个也是GPT-5.4发布文章...