ブラウズAIを使えば、コードを書かずに数分であらゆるウェブページからデータを抽出し、監視することができます。人間と同じようにウェブサイトを操作するようにボットを訓練することで、最小限の労力で最も正確なデータを抽出できるようになります。このガイドでは、使い始めに役立つ重要なコンセプトをご紹介します。 ...
1) ロボット工学
を訓練することができる。機械工を使えば、通常手動で行うウェブサイトの一連のステップを自動化することができる。
例えば、ロボットはタスクの実行中に以下の行動をすべて行うことができる:
- ページを開く
- 上陸する
- ボタンをクリック
- フォームに記入する
- ドロップダウンメニューから選択
- ウェブページからスプレッドシートへ構造化データを抽出
- 次へ "または "もっと読み込む "ボタンをクリックすると、さらにデータが表示されます。
- コンピュータの画面に表示された画像をキャプチャする
- ウェブページの特定部分のビジュアルやコンテンツの変更を監視
このボットには、動的な[入力パラメータ]があり、実行ごとにWebページのURL、別名[ソースURL]またはテキスト入力を調整することができます。これにより、同じボットを使用して、同じようなレイアウトのサイト上の無制限のページのデータを抽出または監視することができます。
ほとんどの人は、単にウェブページを開いてそこからデータを抽出するロボットを作る。ユーザーは、ウェブサイト上の何万もの類似したページに対して[バッチ実行]を使用することで、データセット全体を素早く抽出することができる。
ボットはまた、CAPTCHAを解いたり、地理的に位置づけられた居住用IPアドレスを使用したり、検出を避けるために人間の行動を模倣したり、ウェブサイトの変更に自動的に適応したり、基本的に自己維持したりするなど、あなたが気づかないようなバックグラウンドで多くのことを行っている。
2) プレハブロボットとカスタムロボットの比較
ロボットは[Premade Robot]を使うか、ブラウズAIレコーダーとそのクリック・トゥ・エクストラクト・インターフェイスを使って作成することができます。各ロボットはいくつかの[入力パラメータ](例:ウェブアドレス)を持っており、実行するたびに調整することができます。
あらかじめ構築されたボットは、人気のあるユースケースに適用され、毎週新しいものがリリースされる。例えば、Yelp、TripAdvisor、LinkedInの企業ウェブサイトからデータを抽出するようなものだ。
901人以上のTP3T of Browse AIユーザーが、特定のユースケース用に訓練されたカスタムボットであるボットを作成している。例えば、不動産業者の中には、郡政府が発行する建築許可証を(郡の公式ウェブサイトで)監視し、それを営業CRMやスプレッドシートにリンクさせて、建築許可証を取得したすべての業者に自動的にメールを送信する人もいる。
3) ソースURL
各[カスタムボット]にはソースURL [入力パラメータ]があり、デフォルトでは学習させたリンクを指しています。ソースURLを微調整することで、そのサイト上の同様のレイアウトを持つ他のページからデータを抽出または監視することができます。
例えば、Walmartの商品価格を監視したい場合、Walmartの商品ページでカスタムボットを訓練し、各モニターのソースURLを調整して、そのボットが100の異なる商品ページを監視するように設定することができる。
4) タスク
各[ボット]は、特定のタスクを実行するように訓練されています。ボットを実行するたびに、ボットはそのタスクを実行し、タスクの詳細(抽出されたデータを含む)は、ボットの[履歴]タブでそのタスクの下に保存されます。
毎日ウェブページの変更を[監視]するために監視ボットを設定した場合、1日に1タスク、1ヶ月に約30タスクを実行する必要があるかもしれません。
新しいタスクはいくつかの異なる方法で作成できる:
- ダッシュボードでボットを開き、「タスクの実行」タブに移動してタスクを実行できる。
- タスクの実行]タブでは、[バッチ実行]を選択し、CSVファイルをアップロードすることで、一度に最大50,000件のタスクを実行することもできます。
- モニターを設定すると、モニタリングチェックを実行する必要があるたびに、新しいモニタリングタスクが自動的に作成されます。
- Browse AIを他のソフトウェアと統合したり、APIを使用すると、API経由で新しいタスクを作成することができます。
- 時折、ロボットが健康であることを確認するため、あるいはロボットをより速く、より信頼できるように最適化するために、システムがタスクを作成することがある。タスクは「システムによる実行」とマークされる。
5) モニター
ブラウズAIの最も便利な機能の一つは、内蔵された監視システムである。
各ロボットには無限のモニターを設定することができ、各モニターはウェブサイトのページや検索条件に対応している。
例えば、ボットを使ってeコマースサイトの全商品を監視し、価格が変更されたり商品が入手可能になったりしたときに通知を受け取ることができる。
モニターは変更を検出することができ、変更が検出されたときに電子メール通知を送信したり、別のソフトウェアにデータを自動的に送信するように設定することができる。
6) 入力パラメータ
各ボットは、タスクの要件に応じて調整および監視可能な入力パラメータを備えているため、ウェブサイト上のページや検索語ごとにボットを作り直す必要はありません。
最も一般的な入力パラメータは[ソースURL]で、これはロボットが初めて訪れるページである。
ロボットをカスタマイズする際、テキストを入力すると、入力した内容が入力パラメータとなり、後で調整することができます。
7) バッチ実行
ロボットコントロールパネルのタスク実行タブにバッチ実行機能があります。この機能により、最大50,000の異なる[入力パラメータ]セットを含むCSVファイルをアップロードし、各パラメータセットの[タスク]を即座に作成することができます。タスクは処理のためにキューに入れられ、完了すると、抽出された完全なデータセットが提供されます。
例えば、LinkedInの50,000の企業ページへのリンクを含むCSVファイルをアップロードし、それらのページからすべてのデータを抽出することができる。
8) ディープクロール
ディープクロールとは、一般的によく使われる用語で、特定のカテゴリのページからリンクのリストをクロールし、さらに各リンクの詳細を抽出することを指します。
このアプローチにより、ウェブサイト内のページやセクションから詳細で詳細なデータを収集することができます。
を使用する方法について詳しく説明する。 AIを見る 関連記事]をディープクロールする。
9) 統合アプリケーション
多くの場合、GoogleフォームやCRMなど、ウェブサイトで取得したデータを他のソフトウェアに転送する必要があります。Browse AIは5,000以上の統合機能を提供しており、あらゆるウェブサイトから既に使用しているツールに簡単にデータをインポートすることができます。
10) GoogleフォームとAirtableの統合
すでに[Google Forms]と[Airtable]の直接統合があります。一度ロボットに設定すると、ロボットがタスクを実行するたびに、抽出されたデータが直接スプレッドシートに挿入されます。
AIのGoogle Formsプラグインを見る
このプラグインは Google Forms の追加機能を提供します:
- ロボットはGoogleフォームで直接実行することができます。
- Google フォームから古いデータを自動的に削除する。
- Google Sheetsから重複を自動的に削除します。
11) コネクタの統合(Zapier、Make、Pabbly)
サードパーティの統合ソフトウェアを数回クリックするだけで、これらのネイティブな統合方法により、ブラウズAIを5000以上の他のアプリと連携させることができる:
- [ザピア操作は簡単だが、大量に使用するとコストがかかる。
- [作る]はコストが安いが、使い方が複雑だ。
- [パブリーコネクト] 1回限りの有料ライフタイム契約を購入したユーザーが、費用を節約するために利用することが多い。
12) APIとWebhooks
あなたのチームにソフトウェア開発者がいる場合は、APIとWebhookを活用するようにしてください。APIとWebhookを利用することで、コントロールパネル上でほとんどすべてのことを行うことができ(新しいボットを作成することを除く)、一般に公開されているAPIやWebhookとプログラムでインターフェースをとることができます。
ブラウズAIのAPIに基づいてソフトウェアを構築し、労働集約的なデータのクロールをすべてアウトソーシングしている新興企業もある。