はじめに
DroidRunは、AIに人間のようにAndroid携帯を操作させるオープンソースツールです。画面上のボタンや入力ボックスなどのインタラクティブな要素を抽出することで、アプリを開く、メッセージを送信する、ウェブを閲覧するといった作業をAIが自動化することができます。DroidRunは、視覚的な構文解析とUI構造解析を組み合わせることで、正確で安定した動作を実現します。 ユーザ独自の言語モデルの接続をサポートし、幅広いAndroidシステムと互換性があります。DroidRunは、AIアシスタントを開発する開発者でも、携帯電話の操作を簡素化するカジュアルユーザーでも、すぐに使い始めることができ、箱から出してすぐに使うことができます。
機能一覧
- 画面のインタラクション要素を抽出することで、AIはボタンやテキストボックスなどを認識することができる。
- AIによる自動タップ、スワイプ、入力に対応し、人間の操作をシミュレート。
- 視覚的な解析とUI抽出を組み合わせて、複雑なインターフェースに対応。
- インテリジェントなエラー処理とタスク中断後の自動回復。
- ユーザーが選択した言語モデルとの接続を高い柔軟性でサポート。
- 同じタスクの繰り返し実行をサポートするために、ユーザーのアクションを記録する。
- Android 6.0以上に対応し、幅広いデバイスをカバー。
- 開発者向けにカスタマイズ可能な機能を備えたオープンソースのフレームワークを提供(近日公開)。
ヘルプの使用
設置プロセス
- 公式ウェブサイトを見るブラウザを開き
https://www.droidrun.ai/
. - ダウンロードアプリ公式サイトのトップページで、「Download Android Portal APK」をクリックしてダウンロードしてください。
droidrun-portal.apk
ファイルサイズは約10MB。 - パーミッションの有効化Android端末の「設定>セキュリティ」で「提供元不明のアプリのインストールを許可」を有効にする。携帯電話によって、パスが若干異なる場合があります。
- APKをインストールするファイルマネージャーを開き、ダウンロードしたAPKファイルを見つけ、インストールをクリックします。インストールには約1分かかります。
- 権限の付与DroidRunを初めて開くと、"アクセシビリティサービス "と "スクリーンキャプチャ "を有効にするよう促されます。プロンプトをクリックして設定ページに入り、関連する許可を有効にしてください。
- コネクティビティモデルアプリ内で言語モデルのAPIキー(Gemini、ChatGPT、Grokなどがサポートされています)を入力します。Verify "をクリックして、接続が成功したことを確認してください。
使用方法
DroidRunの核心は、ユーザーの代わりにAIに電話を操作させることだ。画面の内容を分析し、自動的にタスクを実行する。以下は、主な機能の詳細なステップバイステップガイドです:
機能1:携帯電話タスクの自動実行
- タスクの作成DroidRunを開き、"New Task "をクリックします。カレンダーを開き、明日の午前10時にミーティングを追加する。記述が具体的であればあるほど、AIの実行はより正確になります。
- モデルを選択設定」→「言語モデル」で接続モデルを選択します。クイックモデル(例 ジェミニ フラッシュ)は単純な作業用で、複雑なモデル(GPT-4など)は多段階の作業用である。
- タスクの実行DroidRunはリアルタイムで画面をキャプチャし、インターフェース要素を識別します。スクリーンに青いハイライトが表示され、AIが現在操作しているエリアをマークします。例えば、カレンダーアイコンをタップしたり、会議のタイトルを入力したりします。
- 検査結果タスクが完了したら、"Log "をクリックして実行の詳細を表示します。ログには、「カレンダーアイコンのクリックに成功した」「テキスト入力に失敗した」など、それぞれのアクションが記録されます。失敗した場合は、説明を調整して再試行できます。
特集2:ビジュアルとUIの統合分析
- 機能の有効化Settings > Parsing Modeで、Visual + UI Extractionを選択してください。これにより、DroidRunはスクリーンショットとシステムUIデータの両方を分析することができます。
- 操作上複雑なインターフェースショッピングアプリを例にとると、「京東を開いて、Bluetoothヘッドホンを検索」と入力すると、AIは自動的に検索ボックスを見つけてテキストを入力し、検索ボタンをクリックする。インターフェイスに広告があっても、AIはターゲットとなる要素を認識することができる。
- 最適化された認識AIがミスをした場合は、「設定」>「認識感度」でスライダーを調整してください。値を高くすると視覚的な解析が優先され、低くするとUIデータが優先されます。推奨デフォルト値は50です。
- テンプレートの保存よく使うタスクは「タスクを保存」をクリック。次回からは、そのテンプレートを選択するだけで、入力を繰り返すことなくAIが直接実行します。
機能3:インテリジェントなエラー処理
- 自然回復タスク中にポップアップウィンドウ(広告など)が表示された場合、DroidRunはそれを閉じてタスクを続行しようとします。例えば、"ブラウザを開く "を実行中、許可プロンプトがあればAIが自動的に "許可 "をクリックします。
- 手動介入タスクが止まっている場合は、「一時停止」をクリックしてください。AIは現在の状態から続行されます。
- エラーログ例:"Search box not found"(検索ボックスが見つからない)。タスクの説明やインターフェースの設定を最適化する。
機能4:カスタム言語モデルのリンク
- モデルの追加DroidRunは複数の言語モデルをサポートしているので、複雑な設定は必要ありません。
- テスト接続Test "をクリックし、モデルが正しく反応することを確認します。テストに合格すると、タスク選択リストにモデルが表示されます。
- モデルの切り替え異なるモデルは異なるタスクに使用できる。例えば グロック シンプルなタスクを処理し、複雑なロジックにはGPT-4を使用する。
今後の機能
公式サイトによると、以下の機能が開発中で、近日中に稼動する予定だという:
- エレメント・トラッキングユーザーがクリックした要素を記録し、AIが正確にアクションを繰り返すことができます。一括いいね!やコメントなどのバッチタスクに最適。
- 伝票管理アカウントのパスワードや二重認証(2FA)の追加をサポート。例えば、AIがソーシャルアプリに自動ログインしたり、動的な認証コードを入力したりできる。
- マルチシステム管理複数のAndroidデバイスの同時制御をサポートし、企業レベルの自動化やテストシナリオに適しています。
ほら
- システム互換性: DroidRunはAndroid 6.0以上をサポートしています。一部の新機能(エレメントトラッキングなど)にはAndroid 10以上が必要な場合があります。
- ネットワーク要件言語モデルへの接続には、安定したWi-Fiまたは4Gネットワークが必要です。オフラインモードは、保存されたローカルタスクのみをサポートします。
- 許可メンテナンス一部の携帯電話(Huaweiなど)では、省電力モードでアクセシビリティ機能が無効になっている場合があります。設定>アクセシビリティ」が有効になっているか、定期的に確認してください。
- 消費電力長時間タスクを実行すると消費電力が増加します。バッテリーの残量が30%より多いか、充電器を接続することをお勧めします。
開発者サポート
DroidRunはまもなくオープンソース・フレームワーク(MITライセンス)として提供され、全コードはGitHubを通じて開発者に公開される。公式ドキュメント (Docs
)とクラウドサービス(Cloud
)も準備中で、その時点でAPIインターフェースとデプロイメント・ガイドが利用可能になる。開発者は、特定のアプリを統合したり、独自のアシスタントを開発するなど、AIの動作をカスタマイズすることができる。
DroidRunはルーチンワークから複雑な開発まで柔軟に自動化をサポートする。
アプリケーションシナリオ
- 日常業務の簡素化
ユーザーはDroidRunで繰り返し作業を自動化できる。例えば、毎日自動的にニュースアプリを開いてヘッドラインを閲覧したり、ソーシャルグループで定期的にメッセージを送信したりする。AIがインターフェイスを正確に識別し、手動タップを減らす。 - ソーシャルメディア・マネジメント
セルフメディアの実践者は、一括して操作することができる。例えば、自動的に小紅集にログインし、10枚の画像をアップロードし、メモを投稿する。AIはそれらを順番に実行し、コンテンツが間違いなく投稿されるようにする。 - アプリケーション・テスト開発
開発者はDroidRunを使ってアプリケーションインターフェースをテストすることができます。例えば、eコマースアプリでユーザーが検索や注文を行うシミュレーションを行い、各ステップの応答時間を記録し、潜在的なバグを発見することができます。 - データ抽出と分析
研究者はアプリケーションのデータを自動的に取り込むことができる。例えば、マップアプリを開き、近くのレストランを検索し、結果のスクリーンショットを撮る。 - 複雑なタスクスケジューリング
ビジネス・ユーザーは、複数ステップのプロセスを設計できる。例えば、AIはメールアプリを開き、添付ファイルをダウンロードし、クラウドドライブにアップロードし、確認メッセージを送信する。
品質保証
- DroidRunはどのAndroidデバイスに対応していますか?
Android 6.0以上と互換性があり、ほとんどの携帯電話とタブレットをカバーします。最高の体験のためにはAndroid 10以上を推奨します。 - root権限が必要ですか?
DroidRunはヘルパーサービスを使うので、root化する必要はなく、インストールして使うだけでいい。 - タスクをオフラインで実行することは可能ですか?
ローカルに保存したタスクはオフラインで実行できますが、言語モデルへの接続にはインターネット接続が必要です。よく使うタスクはあらかじめ保存しておくことをお勧めします。 - 正しい言語モデルを選ぶには?
簡単な作業には高速モデル(例:Gemini Flash)を、複雑な作業には上級モデル(例:GPT-4)をお選びください。公式サイトでは、推奨リストを随時更新しています。 - ミッションの失敗はどのように処理されるのか?
ログをチェックし、失敗の理由を確認する。説明または感度を調整して再試行するか、手動で介入して続行する。 - オープンソース版はいつ入手できますか?
公式サイトによると、GitHubリポジトリは近日中に公開される予定だ。Discordコミュニティーに参加して最新情報を入手しよう。