UgOrange 在 让 Claude Code 接管你的 Android 手机:基于 GUI Agent 的全自动化“豆包手机”实现 中发帖
最近这波手机 GUI Agent(比如 AutoGLM-Phone、GELab)很有意思:用户用自然语言就能操控手机,点按、跳转、填表都能做。但是,他们普遍都是 4b、9b 这种小模型,适合单任务操控,不太擅长复杂流程里的长期规划、分支决策、异常恢复和跨任务编排。
所以我做了一个 Skill:让 Claude Code / Codex 负责高层编排,让手机 GUI 小模型负责底层执行。可以理解为:
Claude Code / Codex:任务理解、拆解、决策、重规划
Skill 层:工作流编排、状态机、重试与回滚、工具调用协议
Phone GUI 小模型:屏幕理解 + 控件操作 + 跨 App 执行
项目基本架构(简版)
用户输入目标(自然语言或模板任务)。
Claude Code / Codex 生成执行计划(步骤、条件、失败策略)。
Skill 将计划转成可执行动作流(点击、...