夜夜 (@vision9527)💯 GPT-5.4视觉能力的惊喜 中发帖

早上起来刷到GPT-5.4发布的消息,看到文章里描述了关于Computer use and vision的描述,让我很惊喜! 
往常多模态是模型能够识别图片内容是什么,但让模型返回具体坐标是不准的。这么说可能不太好理解,直接上例子:
sub-定位暂无代理几个字-gpt-5.2:
[sub-定位暂无代理几个字-gpt-5.2]
sub-定位暂无代理几个字-gpt-5.4:
[sub-定位暂无代理几个字-gpt-5.4]
sub-定位中间的添加代理按钮-gpt-5.2:
[sub-定位中间的添加代理按钮-gpt-5.2]
sub-定位中间的添加代理按钮-gpt-5.4
[sub-定位中间的添加代理按钮-gpt-5.4]
以前模型知道这里有个按钮,但是缺了一只手来点击他理解的位置。而现在能精确返回坐标,只需要一套工具,就能真正意义上的操作电脑了。这个也是GPT-5.4发布文章...