AI个人学习
和实操指南
讯飞绘镜

DroidRun:AI自动操作安卓手机的开源工具

综合介绍

DroidRun 是一个开源工具,让 AI 像人类一样操作安卓手机。它通过提取屏幕上的按钮、输入框等交互元素,帮助 AI 自动完成任务,比如打开应用、发送消息或浏览网页。DroidRun 结合视觉解析和 UI 结构分析,操作精准且稳定。它支持用户连接自己的语言模型,兼容多种安卓系统。无论是开发者打造 AI 助手,还是普通用户简化手机操作,DroidRun 都能快速上手,开箱即用。

DroidRun:AI自动操作安卓手机的开源工具-1


 

功能列表

  • 提取屏幕交互元素,AI 可识别按钮、文本框等。
  • 支持 AI 自动点击、滑动、输入,模拟人类操作。
  • 结合视觉解析和 UI 提取,适应复杂界面。
  • 智能错误处理,任务中断后自动恢复。
  • 支持连接用户自选语言模型,灵活性高。
  • 记录用户操作,支持重复执行相同任务。
  • 兼容安卓 6.0 及以上版本,覆盖广泛设备。
  • 提供开源框架,开发者可定制功能(即将推出)。

 

使用帮助

安装流程

  1. 访问官网:打开浏览器,输入 https://www.droidrun.ai/
  2. 下载应用:在官网首页,点击“Download Android Portal APK”,下载 droidrun-portal.apk 文件,大小约 10MB。
  3. 启用权限:在安卓手机的“设置 > 安全”中,开启“允许安装未知来源应用”。不同手机可能路径略有不同。
  4. 安装 APK:打开文件管理器,找到下载的 APK 文件,点击安装。安装过程约需 1 分钟。
  5. 授予权限:首次打开 DroidRun,系统会提示开启“辅助功能服务”和“屏幕捕获”。点击提示,进入设置页面,启用相关权限。
  6. 连接模型:在应用内,输入你的语言模型 API 密钥(支持 Gemini、ChatGPT、Grok 等)。点击“验证”,确认连接成功。

如何使用

DroidRun 的核心是让 AI 代替用户操作手机。它通过分析屏幕内容,自动执行任务。以下是主要功能的详细操作步骤:

功能 1:自动执行手机任务

  • 创建任务:打开 DroidRun,点击“新建任务”。在输入框描述任务,比如“打开日历,添加明天上午 10 点的会议”。描述越具体,AI 执行越准确。
  • 选择模型:进入“设置 > 语言模型”,选择已连接的模型。快速模型(如 Gemini Flash)适合简单任务,复杂模型(如 GPT-4)适合多步骤操作。
  • 运行任务:点击“开始”。DroidRun 会实时捕获屏幕,识别界面元素。屏幕上会显示蓝色高亮,标记 AI 当前操作的区域。比如,点击“日历”图标或输入会议标题。
  • 检查结果:任务完成后,点击“日志”查看执行详情。日志会记录每步操作,如“点击日历图标成功”或“输入文本失败”。若失败,可调整描述后重试。

功能 2:视觉与 UI 结合解析

  • 启用功能:在“设置 > 解析模式”中,选择“视觉 + UI 提取”。这让 DroidRun 同时分析屏幕截图和系统 UI 数据。
  • 操作复杂界面:以购物应用为例,输入“打开京东,搜索蓝牙耳机”,AI 会自动找到搜索框、输入文字并点击搜索按钮。即使界面有广告,AI 也能识别目标元素。
  • 优化识别:如果 AI 误点,进入“设置 > 识别灵敏度”,调整滑块。数值高时偏向视觉解析,低时优先 UI 数据。推荐默认值 50。
  • 保存模板:对于常用任务,点击“保存任务”。下次只需选择模板,AI 会直接执行,无需重复输入。

功能 3:智能错误处理

  • 自动恢复:任务中若遇到弹窗(如广告),DroidRun 会尝试关闭并继续。比如,运行“打开浏览器”时,若弹出权限提示,AI 会自动点击“允许”。
  • 手动干预:若任务卡住,点击“暂停”。手动调整手机到正确界面后,点击“恢复”。AI 会从当前状态继续。
  • 错误日志:每次失败后,查看“日志”了解原因,比如“未找到搜索框”。根据提示优化任务描述或界面设置。

功能 4:连接自定义语言模型

  • 添加模型:在“设置 > 语言模型”中,输入 API 密钥。DroidRun 支持多种模型,无需复杂配置,直接粘贴密钥即可。
  • 测试连接:点击“测试”,确保模型响应正常。测试通过后,模型会出现在任务选择列表。
  • 切换模型:不同任务可使用不同模型。比如,用 Grok 处理简单任务,用 GPT-4 处理复杂逻辑。

即将推出的功能

根据官网信息,以下功能正在开发,预计很快上线:

  • 元素跟踪:记录用户点击的元素,AI 可精确重复操作。适合批量任务,如批量点赞或评论。
  • 凭证管理:支持添加账号密码或双重认证(2FA)。比如,AI 可自动登录社交应用,输入动态验证码。
  • 多系统管理:支持同时控制多台安卓设备,适合企业级自动化或测试场景。

注意事项

  • 系统兼容性:DroidRun 支持安卓 6.0 及以上版本。部分新功能(如元素跟踪)可能需安卓 10 或更高。
  • 网络需求:连接语言模型需稳定 Wi-Fi 或 4G 网络。离线模式仅支持已保存的本地任务。
  • 权限维护:部分手机(如华为)可能在省电模式下禁用辅助功能。定期检查“设置 > 辅助功能”是否启用。
  • 电量消耗:长时间运行任务会增加耗电。建议电量高于 30% 或连接充电器。

开发者支持

DroidRun 即将推出开源框架(MIT 许可证),开发者可通过 GitHub 获取完整代码。官网的文档(Docs)和云服务(Cloud)也在准备中,届时会提供 API 接口和部署指南。开发者可定制 AI 行为,比如集成特定应用或开发专属助手。

通过以上步骤,用户能快速掌握 DroidRun。无论是日常任务还是复杂开发,它都提供了灵活的自动化支持。

 

应用场景

  1. 简化日常操作
    用户可以用 DroidRun 自动完成重复任务。比如,每天自动打开新闻应用浏览头条,或在社交群发送固定消息。AI 会精准识别界面,减少手动点击。
  2. 社交媒体管理
    自媒体从业者可批量操作。比如,自动登录小红书,上传 10 张图片并发布笔记。AI 会按顺序执行,确保内容发布无误。
  3. 应用测试开发
    开发者可用 DroidRun 测试应用界面。比如,模拟用户在电商应用中搜索、下单,记录每步响应时间,发现潜在 Bug。
  4. 数据提取分析
    研究员可自动抓取应用数据。比如,打开地图应用,搜索附近餐厅,截图结果。AI 会保存数据,方便后续分析。
  5. 复杂任务编排
    企业用户可设计多步骤流程。比如,AI 打开邮件应用,下载附件,上传到云盘,再发送确认消息,适合跨应用协作。

 

QA

  1. DroidRun 支持哪些安卓设备?
    它兼容安卓 6.0 及以上系统,覆盖大多数手机和平板。推荐安卓 10 以上以获得最佳体验。
  2. 需要 root 权限吗?
    不需要。DroidRun 使用辅助功能服务,无需 root,安装即可使用。
  3. 可以离线运行任务吗?
    本地保存的任务可离线运行,但连接语言模型需联网。建议提前保存常用任务。
  4. 如何选择适合的语言模型?
    简单任务选快速模型(如 Gemini Flash),复杂任务选高级模型(如 GPT-4)。官网会更新推荐列表。
  5. 任务失败如何处理?
    查看“日志”确认失败原因,如“按钮未找到”。调整描述或灵敏度后重试,或手动干预后继续。
  6. 开源版本何时推出?
    根据官网,GitHub 仓库即将上线,具体时间待公布。加入 Discord 社区可获取最新动态。
未经允许不得转载:首席AI分享圈 » DroidRun:AI自动操作安卓手机的开源工具
zh_CN简体中文