AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

クラウドフレアがAI Mazeを発表:生成AIで悪意のあるクローラーに対抗

人工知能が生成したコンテンツはかつてないスピードで成長しており、昨年秋にはFacebookで最も人気のあった20の投稿のうち4つがAIによって生成されたと報告されている。また、Mediumは、同社のプラットフォーム上のコンテンツの47%もAIによるものだと推定している。他の新興ツールと同様に、AIにはポジティブな用途と、悪意のある目的に悪用されるリスクの両方がある。

同時に、AI企業がモデルのトレーニングに使用する新しいタイプのウェブクローラーも急増しています。これらのAIクローラーは、Cloudflareネットワークに対して1日あたり500億回以上のリクエストを行い、ネットワークの総リクエストの約1%を占めています。 Cloudflareはすでに不正なAIクローリングを特定し、ブロックするツールを提供していますが、悪意のあるBotを完全にブロックすると、攻撃者に戦術の変更を警告し、終わりのない「猫とネズミのゲーム」につながる可能性があることが、これまでの経験から明らかになっています。猫とネズミの終わりのないゲームCloudflareは、これらの不要なBotを検知されずにブロックする新しい方法を見つけたいと考えました。


これを実現するため、Cloudflareは、ボット作成者にとっては一般的なツールでありながら、防衛分野ではこれまでほとんど適用されてこなかった、AIが生成するコンテンツという戦略を採用することにした。Cloudflareは不正なクロールを検出すると、リクエストを完全にブロックするのではなく、AIが生成した一連のページにリンクします。これらのページのコンテンツは、クローラーがさらにクロールするよう誘引するのに十分なほど現実的である。しかし、この一見本物のように見えるコンテンツは、実際にはサイト自体の実際のデータではないため、クローラーは偽の情報で時間とコンピューティングリソースを浪費することになる。

AI迷路」には、新世代のハニーポット技術という利点もある。通常の人間であれば、AIが生成した無意味なリンクの迷路に入り込むことはないため、執拗な訪問者はボットである可能性が高い。Cloudflareは、悪意のあるボットを特定してタグ付けし、既知の悪意のあるアクターのリストに追加するための新しいツールを提供します。AI Maze」の仕組みは次のとおりです。

 

"迷宮 "はどのように造られたのか?

AIクローラーがこのようなリンクをたどると、実際のデータを求めてサイトをクロールする代わりに、無関係なコンテンツを処理するために貴重なコンピューティング・リソースを消費してしまう。これは、AIクローラーがモデルを訓練するための情報を効率的に収集する能力を大幅に低下させる。

可能な限り本物の人間のようなコンテンツを生成するために、CloudflareはWorkersのAIとオープンソースのモデルを組み合わせて、さまざまなトピックに関するユニークなHTMLページを作成しました。コンテンツがオンデマンドで生成されることによるパフォーマンスへの影響を避けるため、Cloudflareは事前生成プロセスを実装し、XSS脆弱性を防ぐためにコンテンツをクリーニングし、素早く検索できるようにR2にコンテンツを保存しました。Cloudflareは、様々なトピックを特定し、トピックごとにコンテンツを生成することで、より多様で紛らわしい結果が得られることを発見しました。さらに、Cloudflareは、インターネット上の偽情報の拡散につながる可能性のある不正確なコンテンツの生成を避けたいと考えています。その結果、「AI Maze」によって生成されるコンテンツは、科学的事実に関連した信憑性のあるものですが、クロールされたウェブサイトの内容とは異なります。

この事前に生成されたコンテンツは、CloudflareのカスタマイズされたHTML変換プロセスにより、ページの元の構造やコンテンツを破壊することなく、既存のページの隠しリンクにシームレスに統合されます。生成された各ページには、SEOを保護し、検索エンジンによるインデックスを防ぐための適切なmetaディレクティブが含まれています。また、Cloudflareは、慎重に作成された属性とスタイリングにより、これらのリンクが人間の訪問者には見えないようにします。さらに、通常の訪問者への影響を最小限に抑えるため、これらのリンクは疑わしいAIクローラーにのみ表示され、正当なユーザーや認証されたクローラーは通常通りリンクを閲覧することができます。

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

図:AIクローラー日別リクエスト数比較表、クローラーデータカテゴリ別比較。

このアプローチが効果的なのは、Cloudflareの進化したボット検知システムで果たす役割にあります。これらの隠しリンクが訪問された場合、人間の訪問者や通常のブラウザはこれらのリンクを見たりクリックしたりすることはないため、Cloudflareはこれが人間のユーザーの行動ではなく、自動化されたクローラーの行動であると確信することができます。これはCloudflareに強力な識別メカニズムを提供し、機械学習モデルにフィードバックする貴重なデータを生成します。Cloudflareは、どのクローラーがこのような隠れた経路をたどっているかを分析することで、他の方法では検出が困難な新しいBotパターンや特徴を特定することができます。このプロアクティブなアプローチにより、CloudflareはAIクローラー分野で常に一歩先を行くことができ、ユーザーの通常のブラウジング体験を妨げることなく検出能力を継続的に向上させることができます。

Cloudflare Developer Platform上にこのソリューションを構築することで、Cloudflareは、サイトのパフォーマンスやユーザーエクスペリエンスに影響を与えることなく、即座にリアルなおとりコンテンツを配信し、一貫したコンテンツ品質を維持するシステムを構築しました。

 

AI迷路でAIクローラーを阻止する方法

AI迷宮を有効にするには、Cloudflareダッシュボードのスイッチを切り替えるだけです。お住まいの地域のボット管理セクションに移動し、新しい「AI迷宮」設定を「オン」に切り替えます:

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-2

有効化されると、AI迷路は追加設定なしですぐに動き始めます。

 

AIによって作られたAIハニーポット

AI迷路」の核となる強みは、ボットを混乱させ、注意をそらすことだ。しかし、もう一つの重要な価値は、次世代のハニーポットとして機能することである。この文脈では、ハニーポットとは、ウェブサイト訪問者には見えないが、HTMLコードを解析するボットが認識してクリックし、自身を露出させる隠しリンクのことである。「ハニーポット "技術は、1986年の "カッコーの卵事件 "のような初期のハッカーを捕まえるために使用されてきました。2004年、Cloudflareの創設者たち(Cloudflareを創設する前)は、誰でも簡単に無料の電子メールハニーポットを展開し、クローラーIPのリストと引き換えにデータベースに貢献できるようにするため、Project Honeypotを創設した。しかし、ボットの進化に伴い、ボットは現在、隠しリンクのようなハニーポット技術を積極的に探し求めるようになり、従来のハニーポット手法が有効でなくなっている。

AI迷路」は、隠しリンクを追加するだけでなく、最終的には、より現実的で自動プログラムが認識しにくい、相互リンクされたURLのネットワーク全体を作成する。ページ上のコンテンツは明らかに人間が時間をかけて閲覧するようなものではありませんが、AIボットは可能な限り多くのデータを収集するために深くクロールするようにプログラムされています。ボットがこれらのURLにアクセスすると、Cloudflareは彼らが本物の人間ユーザーではないと確信することができ、この情報は記録され、ボットの認識を向上させるためにCloudflareの機械学習モデルに自動的にフィードバックされます。これにより、各クロールの試みがCloudflareのすべての顧客の保護に役立つという好循環が生まれます。

 

将来展望

これは、CloudflareがジェネレーティブAIでボットに対抗する最初の試みに過ぎない。今のところ、「AIの迷路」はボットを混乱させるのに十分なコンテンツを生成しますが、各ウェブサイトの既存の構造に完全に適合するとは限りません。今後Cloudflareは、これらのリンクを検出しにくくし、埋め込みウェブサイトの既存の構造にシームレスに適合できるようにするための努力を続けていきます。ユーザーは、今すぐ「AI Maze」を有効にすることを選択することで、Cloudflareがこの機能を改善するのを支援することができます。

ボットとの闘いで次の一歩を踏み出すために、今すぐ行動を起こしてください。AIの迷路を可能にする.

無断転載を禁じます:チーフAIシェアリングサークル " クラウドフレアがAI Mazeを発表:生成AIで悪意のあるクローラーに対抗
ja日本語