AutoGLM-GUI全面教程:实现手机AI自动化操作与智能点餐

AutoGLM与AutoGLM-GUI介绍
AutoGLM是由智谱公司开发的一款AI智能体应用程序,它能够依据用户的自然语言指令,自主规划操作路径并识别手机界面元素,模拟人类行为自动操控手机设备与网页,从而执行各类复杂任务。而AutoGLM-GUI则是专为AutoGLM设计的现代化Web图形界面工具,它使得在Android设备上实现AI自动化操作变得极为简便。

核心特性详解
- • 分层代理模式 - 🆕 采用决策模型与视觉模型双层协作架构,支持将复杂任务规划与精准执行步骤分离,提升操作可靠性。
- • 完全无线配对 - 🆕 兼容Android 11及以上版本,通过二维码扫描即可完成配对,无需依赖数据线连接设备。
- • 多设备并发控制 - 可同时管理与操控多个Android设备,各设备间运行状态完全隔离,互不干扰。
- • 对话式任务管理 - 通过直观的聊天界面发送指令,直接控制Android设备执行相应操作。
- • Workflow 工作流 - 🆕 支持预定义常用任务流程,实现一键快速执行,并允许用户创建、编辑、删除及管理工作流。
- • 实时屏幕预览 - 基于scrcpy技术提供低延迟视频流,随时查看设备当前执行的操作画面。
- • 直接操控手机 - 在实时预览画面上可直接进行点击、滑动等操作,支持精准坐标转换与视觉反馈。
- • 零配置部署 - 兼容任何符合OpenAI标准的LLM API接口,简化初始设置流程。
- • ADB 深度集成 - 通过Android Debug Bridge直接控制设备,支持USB有线连接与WiFi无线连接两种方式。
- • 模块化界面 - 采用清晰的侧边栏与设备面板设计,功能区域划分明确,用户体验更佳。
系统与设备要求
- • Android设备(Android 11及以上版本支持完全无线配对,无需数据线;较低版本需通过USB初始化)。
- • 一个兼容OpenAI的API端点(支持智谱BigModel、ModelScope或自行搭建的API服务)。
关于设备连接方式的补充说明:
- • Android 11及以上:支持通过二维码扫码配对,完全无需数据线即可连接并控制设备。
- • Android 10及更低版本:需要先通过USB数据线连接并启用无线调试功能,之后可移除数据线转为无线方式使用。
安装步骤
Docker Compose部署
采用Docker Compose进行快速部署,配置文件示例如下:
services:
autoglm-gui:
image: ghcr.io/suyiiyii/autoglm-gui:main
container_name: autoglm-gui
ports:
- 8080:8000
volumes:
- ./autoglm_config:/root/.config/autoglm
- ./autoglm_logs:/app/logs
restart: unless-stopped
关键参数说明(更多详细参数建议查阅官方文档):
:::
/root/.config/autoglm(路径):用于保存应用程序的配置文件。
/app/logs(路径):用于存储运行过程中生成的日志文件。
/dev/bus/usb(路径,可选):如需通过USB连接设备,可映射此路径以访问宿主机USB设备。
:::
提示:在网络配置方面,推荐使用host网络模式,这有助于ADB设备发现与二维码配对流程。但本文演示基于桥接网络进行。
使用指南
访问界面
在浏览器地址栏中输入 http://NAS的IP:8080 即可访问AutoGLM-GUI的主界面。

配置模型
首次打开界面时,系统通常会弹出提示框,要求用户配置AI模型。

在模型提供商选项中,可以选择智谱AI、魔塔社区ModelScope,或任何兼容OpenAI接口的服务。个人建议优先考虑智谱AI,因为AutoGLM本身是其开源项目,模型可能经过特定优化。

点击相应链接可跳转至智谱AI官网获取API密钥。

若已注册账号,直接点击“添加新的API Key”即可创建。

获取API密钥后,在配置界面填写即可,其他参数可保持默认。

决策模型的配置方式类似,同样使用智谱AI服务时,只需填写对应的API密钥。

连接手机
模型配置完成后,下一步是添加并连接Android设备。尝试通过USB映射(/dev/bus/usb)连接物理手机时,可能因Android版本较低而无法识别设备。

直接连接:适用于安卓模拟器,需要填写模拟器所在主机的IP地址及ADB端口号。

配对设备:适用于常规物理手机。在手机设置中开启无线调试功能(通常位于开发者选项内),然后扫描界面提供的二维码即可完成配对。

远程设备:此选项适用于特定网络环境下的设备连接,具体使用场景可参考官方文档。

以下演示使用MuMu模拟器进行连接。首先需在模拟器中开启ADB调试,注意默认端口号为5555。

在连接界面设置运行模拟器的电脑IP地址及对应端口号。

成功连接后,即可在界面中实时查看设备屏幕。

简单体验
为了测试功能,已在模拟器中预先安装了几个常用应用程序。

首先尝试一个基础问题:“当前界面有什么app应用?” AI能够准确识别并列出所有应用。

输入模糊指令:“我想听红莲华”。AI会自动启动网易云音乐应用,搜索该歌曲并开始播放。

尝试更复杂的任务:“打开淘宝,帮我找一台性价比高,价格在千元以下的 NAS 设备,加入到购物车”。AI能够成功执行一系列操作,包括打开应用、搜索商品并加入购物车。

提示:在上述步骤中,部分操作如输入搜索内容可能需要人工干预,这可能是由于模拟器环境导致的个别兼容性问题。

原本计划测试“分层代理”模式的具体差异,但因API余额耗尽未能完成。

除了直接对话,用户还可以创建工作流(Workflow),详细描述一系列自动化步骤。

历史记录功能允许查看所有过往的对话与任务执行日志。

重点功能:支持创建定时任务,用户可设定特定时间自动执行预定工作流,扩展了自动化应用场景。

总结
AutoGLM-GUI的最大意义在于将AI能力与普通Android设备深度融合,使得仅需一句自然语言指令即可自动化完成复杂任务。此前AutoGLM因缺乏友好界面而体验受限,但AutoGLM-GUI的出现彻底改变了这一状况。该工具已封装为Docker镜像,部署配置极为简便,显著降低了AutoGLM的使用门槛,让更多用户能轻松体验AI自动化操控的便利。
综合推荐:⭐⭐⭐⭐⭐(技术前瞻性强,一句话即可完成任务) 使用体验:⭐⭐⭐⭐(普通手机也能获得良好自动化体验) 部署难易:⭐⭐(流程简单,易于上手)