综合介绍
DroidRun 是一个开源工具,让 AI 像人类一样操作安卓手机。它通过提取屏幕上的按钮、输入框等交互元素,帮助 AI 自动完成任务,比如打开应用、发送消息或浏览网页。DroidRun 结合视觉解析和 UI 结构分析,操作精准且稳定。它支持用户连接自己的语言模型,兼容多种安卓系统。无论是开发者打造 AI 助手,还是普通用户简化手机操作,DroidRun 都能快速上手,开箱即用。
功能列表
- 提取屏幕交互元素,AI 可识别按钮、文本框等。
- 支持 AI 自动点击、滑动、输入,模拟人类操作。
- 结合视觉解析和 UI 提取,适应复杂界面。
- 智能错误处理,任务中断后自动恢复。
- 支持连接用户自选语言模型,灵活性高。
- 记录用户操作,支持重复执行相同任务。
- 兼容安卓 6.0 及以上版本,覆盖广泛设备。
- 提供开源框架,开发者可定制功能(即将推出)。
使用帮助
安装流程
- 访问官网:打开浏览器,输入
https://www.droidrun.ai/
。 - 下载应用:在官网首页,点击“Download Android Portal APK”,下载
droidrun-portal.apk
文件,大小约 10MB。 - 启用权限:在安卓手机的“设置 > 安全”中,开启“允许安装未知来源应用”。不同手机可能路径略有不同。
- 安装 APK:打开文件管理器,找到下载的 APK 文件,点击安装。安装过程约需 1 分钟。
- 授予权限:首次打开 DroidRun,系统会提示开启“辅助功能服务”和“屏幕捕获”。点击提示,进入设置页面,启用相关权限。
- 连接模型:在应用内,输入你的语言模型 API 密钥(支持 Gemini、ChatGPT、Grok 等)。点击“验证”,确认连接成功。
如何使用
DroidRun 的核心是让 AI 代替用户操作手机。它通过分析屏幕内容,自动执行任务。以下是主要功能的详细操作步骤:
功能 1:自动执行手机任务
- 创建任务:打开 DroidRun,点击“新建任务”。在输入框描述任务,比如“打开日历,添加明天上午 10 点的会议”。描述越具体,AI 执行越准确。
- 选择模型:进入“设置 > 语言模型”,选择已连接的模型。快速模型(如 Gemini Flash)适合简单任务,复杂模型(如 GPT-4)适合多步骤操作。
- 运行任务:点击“开始”。DroidRun 会实时捕获屏幕,识别界面元素。屏幕上会显示蓝色高亮,标记 AI 当前操作的区域。比如,点击“日历”图标或输入会议标题。
- 检查结果:任务完成后,点击“日志”查看执行详情。日志会记录每步操作,如“点击日历图标成功”或“输入文本失败”。若失败,可调整描述后重试。
功能 2:视觉与 UI 结合解析
- 启用功能:在“设置 > 解析模式”中,选择“视觉 + UI 提取”。这让 DroidRun 同时分析屏幕截图和系统 UI 数据。
- 操作复杂界面:以购物应用为例,输入“打开京东,搜索蓝牙耳机”,AI 会自动找到搜索框、输入文字并点击搜索按钮。即使界面有广告,AI 也能识别目标元素。
- 优化识别:如果 AI 误点,进入“设置 > 识别灵敏度”,调整滑块。数值高时偏向视觉解析,低时优先 UI 数据。推荐默认值 50。
- 保存模板:对于常用任务,点击“保存任务”。下次只需选择模板,AI 会直接执行,无需重复输入。
功能 3:智能错误处理
- 自动恢复:任务中若遇到弹窗(如广告),DroidRun 会尝试关闭并继续。比如,运行“打开浏览器”时,若弹出权限提示,AI 会自动点击“允许”。
- 手动干预:若任务卡住,点击“暂停”。手动调整手机到正确界面后,点击“恢复”。AI 会从当前状态继续。
- 错误日志:每次失败后,查看“日志”了解原因,比如“未找到搜索框”。根据提示优化任务描述或界面设置。
功能 4:连接自定义语言模型
- 添加模型:在“设置 > 语言模型”中,输入 API 密钥。DroidRun 支持多种模型,无需复杂配置,直接粘贴密钥即可。
- 测试连接:点击“测试”,确保模型响应正常。测试通过后,模型会出现在任务选择列表。
- 切换模型:不同任务可使用不同模型。比如,用 Grok 处理简单任务,用 GPT-4 处理复杂逻辑。
即将推出的功能
根据官网信息,以下功能正在开发,预计很快上线:
- 元素跟踪:记录用户点击的元素,AI 可精确重复操作。适合批量任务,如批量点赞或评论。
- 凭证管理:支持添加账号密码或双重认证(2FA)。比如,AI 可自动登录社交应用,输入动态验证码。
- 多系统管理:支持同时控制多台安卓设备,适合企业级自动化或测试场景。
注意事项
- 系统兼容性:DroidRun 支持安卓 6.0 及以上版本。部分新功能(如元素跟踪)可能需安卓 10 或更高。
- 网络需求:连接语言模型需稳定 Wi-Fi 或 4G 网络。离线模式仅支持已保存的本地任务。
- 权限维护:部分手机(如华为)可能在省电模式下禁用辅助功能。定期检查“设置 > 辅助功能”是否启用。
- 电量消耗:长时间运行任务会增加耗电。建议电量高于 30% 或连接充电器。
开发者支持
DroidRun 即将推出开源框架(MIT 许可证),开发者可通过 GitHub 获取完整代码。官网的文档(Docs
)和云服务(Cloud
)也在准备中,届时会提供 API 接口和部署指南。开发者可定制 AI 行为,比如集成特定应用或开发专属助手。
通过以上步骤,用户能快速掌握 DroidRun。无论是日常任务还是复杂开发,它都提供了灵活的自动化支持。
应用场景
- 简化日常操作
用户可以用 DroidRun 自动完成重复任务。比如,每天自动打开新闻应用浏览头条,或在社交群发送固定消息。AI 会精准识别界面,减少手动点击。 - 社交媒体管理
自媒体从业者可批量操作。比如,自动登录小红书,上传 10 张图片并发布笔记。AI 会按顺序执行,确保内容发布无误。 - 应用测试开发
开发者可用 DroidRun 测试应用界面。比如,模拟用户在电商应用中搜索、下单,记录每步响应时间,发现潜在 Bug。 - 数据提取分析
研究员可自动抓取应用数据。比如,打开地图应用,搜索附近餐厅,截图结果。AI 会保存数据,方便后续分析。 - 复杂任务编排
企业用户可设计多步骤流程。比如,AI 打开邮件应用,下载附件,上传到云盘,再发送确认消息,适合跨应用协作。
QA
- DroidRun 支持哪些安卓设备?
它兼容安卓 6.0 及以上系统,覆盖大多数手机和平板。推荐安卓 10 以上以获得最佳体验。 - 需要 root 权限吗?
不需要。DroidRun 使用辅助功能服务,无需 root,安装即可使用。 - 可以离线运行任务吗?
本地保存的任务可离线运行,但连接语言模型需联网。建议提前保存常用任务。 - 如何选择适合的语言模型?
简单任务选快速模型(如 Gemini Flash),复杂任务选高级模型(如 GPT-4)。官网会更新推荐列表。 - 任务失败如何处理?
查看“日志”确认失败原因,如“按钮未找到”。调整描述或灵敏度后重试,或手动干预后继续。 - 开源版本何时推出?
根据官网,GitHub 仓库即将上线,具体时间待公布。加入 Discord 社区可获取最新动态。