@3-5105 在 Windows端有无借助无障碍功能实现的AI Agent？中发帖今天花了一天时间部署OmniParser，网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度

@3-5105 在 Windows端有无借助无障碍功能实现的AI Agent？中发帖

今天花了一天时间部署OmniParser，网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度。 
智谱清言和清华大学联合新出的GLM-PC没那么贵，识别效果稍好，但是说实话好不到哪里去。 
最近又看到claude支持自动操作计算机，虽然任务完成率达到惊人的15%，但是一个是价格昂贵，一个是这个完成率还是很低… 
感觉为了识别屏幕而训练一个视觉模型实在是杀鸡焉用牛刀。有没有什么工具可以让大模型利用无障碍功能，直接读取屏幕上控件的原始文本信息，让大语言模型用最熟悉的文本分析和操作计算机？