@3-5105Windows端有无借助无障碍功能实现的AI Agent? 中发帖

今天花了一天时间部署OmniParser,网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度。 
智谱清言和清华大学联合新出的GLM-PC没那么贵,识别效果稍好,但是说实话好不到哪里去。
最近又看到claude支持自动操作计算机,虽然任务完成率达到惊人的15%,但是一个是价格昂贵,一个是这个完成率还是很低…
感觉为了识别屏幕而训练一个视觉模型实在是杀鸡焉用牛刀。有没有什么工具可以让大模型利用无障碍功能,直接读取屏幕上控件的原始文本信息,让大语言模型用最熟悉的文本分析和操作计算机?