土曜日、TriplegangersのCEOであるOleksandr Tomchuk氏は、自社のeコマースサイトがダウンしているとの連絡を受けた。ある種の分散型サービス拒否攻撃のようだった。
彼はすぐに、犯人がOpenAIのボットのひとつであることを突き止める。ボットは執拗に彼の巨大なウェブサイト全体をクロールしようとしているのだ。
「65,000以上の商品があり、それぞれの商品にページがあります」とトムチャックはTechCrunchに語った。
OpenAIは、数十万枚の写真とその詳細な説明を含む、これらすべてのコンテンツをダウンロードしようとする「数万」のサーバーリクエストを送信した。
「OpenAIはデータをクロールするために600のIPを使用し、我々はまだ先週のログを分析しているので、その数はもっと多いかもしれません。
「クローラーが我々のサイトを破壊していた。
トリプルゲンガーズのウェブサイトは、そのビジネスである。従業員7人のこの会社は10年以上かけて、ウェブ上で最大の「人間のデジタル・ダブル」のデータベース(実際のマネキンからスキャンした3D画像ファイル)を構築してきた。
3Dアーティスト、ビデオゲーム制作者、そして手から髪、皮膚、全身に至るまで、実際の人体の特徴をデジタルで再現する必要があるすべての人に、3Dオブジェクトファイルと写真を販売している。
トムチュクのチームはウクライナに本拠地を置くが、米国フロリダ州タンパでもライセンスを取得しており、ウェブサイトにはボットが許可なく画像にアクセスすることを禁止する利用規約のページがある。しかし、それだけでは何もできない。このサイトでは、OpenAIのロボットであるGPTBotがサイトにアクセスしないように明示的に伝えるタグを含む、適切に設定されたrobot.txtファイルを使用する必要があります。(OpenAIには他にもChatGPT-UserやOAI-SearchBotというロボットがあり、クローラーに関する情報ページに基づいて、それぞれ独自のタグを持っています)
robot.txtはRobots Exclusion Protocol(ロボット排除プロトコル)とも呼ばれ、検索エンジンのサイトがウェブをインデックスする際に、クロールしてはいけないものを伝えるためのものだ。と警告している。
Tomchukが経験したように、もしサイトがrobot.txtを正しく使わなければ、OpenAIや他のサイトは、コンテンツを自由にクロールできるとみなす。これはオプトイン・システムではない。
さらに悪いことに、米国の営業時間内にいるトリプルゲンガーは、OpenAIのボットによってオフラインにされているだけでなく、ボットのCPUとダウンロードのアクティビティによって、AWSの請求が大幅に増加するとトムチャックは予想している。
Robot.txtも馬鹿にはできない。ai企業は自主的に遵守している。別のAIスタートアップであるPerplexity社は、昨年夏、ワイアード誌の調査の結果、次のような証拠があるとして有名になった。 当惑 それに応じる時間はない。
何がアクセスされているのか判断できない
OpenAIのボットが戻って数日後の水曜日までに、Triplegangersはrobot.txtファイルを適切に設定し、Cloudflareのアカウントを設定して、GPTBotと、Barkrowler(SEOクローラー)やBytespider(TikTokのクローラー)など、彼が見つけたいくつかのボットをブロックした。TikTokのクローラー).Tomchukはまた、他のAIモデリング会社のクローラーをブロックしたことを望んでいる。木曜日の朝、サイトはクラッシュしなかったという。
しかしトムチャックは、OpenAIが何にアクセスし、何を削除したのかを正確に知る合理的な方法をまだ持っていない。OpenAIはTechCrunchのコメント要請に応じなかった。OpenAIはTechCrunchのコメント要請に応じなかった。OpenAIは、TechCrunchが最近報じたように、長い間約束していたオプトアウト・ツールを今のところ実現していない。
これはトリプルゲンガーズにとって特に茨の道だ。「私たちのビジネスでは、実在の人物をスキャンするため、権利は深刻な問題です」と彼は言う。ヨーロッパのGDPRのような法律では、"ウェブ上で誰でも写真を撮ってそれを使うことはできない"。
トリプルゲンガーズのウェブサイトは、AIのクローラーにとって特においしい発見でもある。Scale AIのような数十億ドル規模のスタートアップが設立され、人間がAIを訓練するために画像に丹念にタグ付けしている。triplegangersのウェブサイトには、人種、年齢、タトゥーや傷跡、あらゆる体型など、詳細にタグ付けされた写真が掲載されている。
皮肉なことに、OpenAIのボットの貪欲さが、トリプルゲンガーズに自分たちがいかに露出しているかを気づかせることになった。もっと優しく引っ掻いていれば、トムチャックは気づかなかっただろう、と。
これらの企業は、データをクロールするための抜け穴を悪用しているようで、『robot.txtを当社のタグで更新すれば、オプトアウトできる』と言っているのですから、恐ろしいことです。とトムチャックは言う。
彼は、AIボットがサイトの著作権で保護されたコンテンツにアクセスしているかどうかを知る唯一の方法は、それを積極的に探すことであることを、他の小規模なオンラインビジネスにも知ってもらいたいと考えている。ボットに脅かされているのは彼だけではない。他のウェブサイトオーナーは最近、Business Insiderに、OpenAIのボットがいかにウェブサイトを破壊し、AWSの請求額を増やしているかを語った。
2024年、この問題は指数関数的に増加している。デジタル広告会社DoubleVerifyの新しい調査によると、AIクローラーとクローリングツールによって、2024年には「一般的な無効トラフィック」が86%増加するという。
とはいえ、「ほとんどのサイトはまだ、こうしたボットにクロールされていることに気づいていません」とトムチャックは警告する。「ボットを発見するためには、日々ログを監視する必要がある。
考えてみれば、このモデルはマフィアの恐喝に似ている。
「単にデータをつかむだけでなく、許可を求めるべきだ」とトムチャックは言う。
関連記事
1.OpenAIは、公共ウェブサイトでのデータ収集によって生じるプライバシーと知的財産の問題に対処するため、GPTBotと呼ばれる新しいウェブクローラーツールを発表した。この技術は、OpenAIのバナーの下、透明性をもって公共のウェブデータを収集し、AIモデルの学習に利用することを目的としている。
2.OpenAIは、ウェブクローラ(「ボット」)とユーザーエージェントを使用して、自動化された、またはユーザーリクエストによってトリガーされた製品のアクションを実行します。openAIは、ウェブマスターが自分のウェブサイトとコンテンツがAIとどのように連携するかを管理できるように、以下のrobots.txtタグを使用しています。.例えば、サイト管理者は、OAI-SearchBotが検索結果に表示されることを許可する一方で、GPTbotを無効にして、クロールされたコンテンツがOpenAIの生成AIベースモデルの学習に使用されないようにすることができます。検索結果については、サイトの robots.txt の更新から当社のシステムへの調整が行われるまで、約 24 時間かかる場合があることに注意してください。