Ylvira (@yihong) 在 openAutoGLM代码解读 中发帖
得到autoglm开源的消息后,我第一时间去看了他的仓库和代码。
简单来说,9B的模型,可以在很多的家用显卡上跑起来了
写在开头
这一套phone agent的代码较为简单,主要处理了一套简单的上下文拼接(没有压缩!就是单纯的提示词+用户消息+ai+用户)。每一步会去进行截图,并把之前的截图信息去除,拼接在最后。
主入口和流程的解析:
PhoneAgent
首先,这个PhoneAgent类是一个手机自动化助手的大脑。它通过摄像头看手机屏幕,用AI模型理解屏幕上有什么,然后决定要做什么操作,最后通过ADB命令控制手机执行。
初始化函数(init):这是创建助手时的准备工作。它需要两个配置:一个是AI模型的配置(比如模型地址、名称等),另一个是助手自己的配置(比如最多执行多少步、用哪个手机设备等)。它会创建两个帮手:一个负责和AI模型对话(ModelClient),另一个负责执...