AI Personal Learning
und praktische Anleitung
豆包Marscode1

Cloudflare startet AI Maze: Bösartige Crawler mit generativer KI bekämpfen

Durch künstliche Intelligenz erzeugte Inhalte nehmen in einem noch nie dagewesenen Tempo zu. Berichten zufolge wurden vier der 20 beliebtesten Beiträge auf Facebook im letzten Herbst durch KI erzeugt. Darüber hinaus schätzt Medium, dass 47% der Inhalte auf seiner Plattform ebenfalls von KI stammen. Wie bei allen neuen Werkzeugen gibt es auch bei der KI sowohl positive Anwendungen als auch Risiken, die für bösartige Zwecke ausgenutzt werden können.

Gleichzeitig haben wir einen Anstieg neuer Arten von Webcrawlern beobachtet, die von KI-Unternehmen zum Trainieren ihrer Modelle verwendet werden. Diese KI-Crawler stellen täglich mehr als 50 Milliarden Anfragen an das Cloudflare-Netzwerk, was fast 1% der gesamten Anfragen unseres Netzwerks ausmacht. Obwohl Cloudflare bereits über Tools verfügt, um unautorisiertes KI-Crawling zu identifizieren und zu blockieren, hat die Praxis gezeigt, dass das vollständige Blockieren eines bösartigen Bot den Angreifer auf eine Änderung seiner Taktik aufmerksam machen kann, was zu einem endlosen "Katz-und-Maus-Spiel" führt. Ein endloses Katz-und-Maus-Spiel. Cloudflare wollte einen neuen Weg finden, um diese unerwünschten Bots zu blockieren, ohne entdeckt zu werden.


Um dies zu erreichen, entschied sich Cloudflare für eine Strategie, die ein gängiges Werkzeug für Bot-Ersteller ist, aber bisher nur selten im Bereich der Verteidigung eingesetzt wurde: KI-generierte Inhalte. Wenn Cloudflare einen unerlaubten Crawl feststellt, wird die Anfrage nicht direkt blockiert, sondern auf eine Reihe von KI-generierten Seiten verlinkt. Der Inhalt dieser Seiten ist realistisch genug, um den Crawler dazu zu verleiten, weiter zu crawlen. Allerdings handelt es sich bei diesen scheinbar realen Inhalten nicht um die tatsächlichen Daten auf der Website selbst, so dass der Crawler Zeit und Rechenressourcen für falsche Informationen verschwendet.

Das "KI-Labyrinth" hat den zusätzlichen Vorteil, dass es sich um eine neue Generation der Honigtopf-Technologie handelt. Da ein normaler menschlicher Nutzer niemals in ein KI-generiertes Labyrinth aus bedeutungslosen Links eintauchen würde, ist jeder obsessive Besucher höchstwahrscheinlich ein Bot. Jeder hartnäckige Besucher ist höchstwahrscheinlich ein Bot. Damit hat Cloudflare ein neues Tool zur Identifizierung und Markierung bösartiger Bots und zur Aufnahme in die Liste der bekannten bösartigen Akteure. So funktioniert das "KI-Labyrinth" im Detail.

 

"Wie das Labyrinth gebaut wurde.

Wenn KI-Crawler diesen Links folgen, verbrauchen sie wertvolle Rechenressourcen, um irrelevante Inhalte zu verarbeiten, anstatt die Website nach echten Daten zu durchsuchen. Dies schränkt die Fähigkeit von KI-Crawlern, effizient Informationen zum Trainieren von Modellen zu sammeln, erheblich ein.

Um menschenähnliche Inhalte zu generieren, die so authentisch wie möglich sind, nutzte Cloudflare die KI von Workers in Kombination mit Open-Source-Modellen, um einzigartige HTML-Seiten zu einer Vielzahl von Themen zu erstellen. Um die Auswirkungen der Generierung von Inhalten auf Abruf auf die Leistung zu vermeiden, implementierte Cloudflare einen Vorerstellungsprozess, bereinigte die Inhalte, um XSS-Schwachstellen zu vermeiden, und speicherte die Inhalte in R2, um sie schnell abrufen zu können.Cloudflare stellte fest, dass die Identifizierung einer Vielzahl von Themen und die anschließende Generierung von Inhalten für jedes Thema zu vielfältigeren und verwirrenderen Ergebnissen führte. Darüber hinaus möchte Cloudflare vermeiden, dass ungenaue Inhalte generiert werden, die zur Verbreitung von Desinformationen im Internet beitragen könnten. Folglich sind die vom "AI Maze" generierten Inhalte authentisch und relevant für wissenschaftliche Fakten, aber nicht für den Inhalt der gecrawlten Websites.

Dieser vorgenerierte Inhalt wird durch den maßgeschneiderten HTML-Konvertierungsprozess von Cloudflare nahtlos in die versteckten Links bestehender Seiten integriert, ohne die ursprüngliche Struktur und den Inhalt der Seite zu zerstören. Jede generierte Seite enthält geeignete Meta-Direktiven, um SEO zu schützen und die Indizierung durch Suchmaschinen zu verhindern, und Cloudflare stellt auch sicher, dass diese Links für menschliche Besucher durch sorgfältig gestaltete Attribute und Styling unsichtbar sind. Um die Auswirkungen auf normale Besucher weiter zu minimieren, werden diese Links nur verdächtigen KI-Crawlern angezeigt, so dass legitime Nutzer und authentifizierte Crawler sie wie gewohnt sehen können.

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

Abbildung: AI Crawler Daily Requests Comparison Chart, Vergleich der Crawler-Daten nach Kategorie.

Was diesen Ansatz so effektiv macht, ist die Rolle, die er im sich entwickelnden Bot-Erkennungssystem von Cloudflare spielt. Wenn diese versteckten Links besucht werden, kann Cloudflare mit großer Sicherheit davon ausgehen, dass es sich nicht um das Verhalten eines menschlichen Nutzers handelt, sondern um einen automatisierten Crawler in Aktion, da menschliche Besucher und normale Browser diese Links nie sehen oder anklicken werden. Damit verfügt Cloudflare über einen leistungsstarken Identifizierungsmechanismus, der wertvolle Daten erzeugt, die in maschinelle Lernmodelle einfließen. Durch die Analyse der Crawler, die diesen versteckten Pfaden folgen, kann Cloudflare neue Bot-Muster und Merkmale erkennen, die sonst schwer zu entdecken wären. Dieser proaktive Ansatz hilft Cloudflare, im Bereich der KI-Crawler immer einen Schritt voraus zu sein und die Erkennungsmöglichkeiten kontinuierlich zu verbessern, ohne das normale Surferlebnis der Nutzer zu stören.

Durch den Aufbau dieser Lösung auf der Cloudflare Developer Platform hat Cloudflare ein System geschaffen, das sofort realistische Täuschungsinhalte liefert und eine gleichbleibende Qualität der Inhalte aufrechterhält, ohne die Leistung der Website oder das Nutzererlebnis zu beeinträchtigen.

 

Wie man AI Crawler mit AI Maze stoppt

Die Aktivierung des KI-Labyrinths ist so einfach wie das Umlegen eines Schalters im Cloudflare-Dashboard. Navigieren Sie zum Abschnitt Bot Management in Ihrer Region und schalten Sie die neue Einstellung "AI Labyrinth" auf "Ein":

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-2

Nach der Aktivierung funktioniert das KI-Labyrinth sofort, ohne dass eine zusätzliche Konfiguration erforderlich ist.

 

AI-Honigtopf, erstellt von AI

Die Hauptstärke des "KI-Labyrinths" besteht darin, den Bot zu verwirren und abzulenken. Ein weiterer wichtiger Wert ist jedoch, dass es als Honeypot der nächsten Generation fungiert. In diesem Zusammenhang ist ein Honeypot ein versteckter Link, der für einen Website-Besucher unsichtbar ist, den aber ein Bot, der den HTML-Code analysiert, erkennt und anklickt, wodurch er sich selbst enttarnt. Die "Honeypot"-Technologie wurde bereits in den Anfängen eingesetzt, um Hacker zu fangen, z. B. beim "Kuckucksei-Vorfall" im Jahr 1986. 2004 haben die Gründer von Cloudflare (vor der Gründung von Im Jahr 2004 schufen die Gründer von Cloudflare (vor der Gründung von Cloudflare) das Project Honeypot, um es jedem zu ermöglichen, kostenlose E-Mail-Honeypots einzurichten und im Austausch gegen eine Liste von Crawler-IPs zu einer Datenbank beizutragen. Da sich Bots jedoch weiterentwickelt haben, suchen sie nun aktiv nach Honeypotting-Techniken, wie z. B. versteckten Links, wodurch die herkömmlichen Honeypotting-Methoden weniger effektiv sind.

Das "KI-Labyrinth" fügt nicht nur versteckte Links hinzu, sondern schafft schließlich ganze Netze miteinander verbundener URLs, die realistischer und für automatisierte Programme schwerer zu erkennen sind. Der Inhalt der Seite ist natürlich nichts, was ein Mensch durchstöbern würde, aber der KI-Bot ist so programmiert, dass er tief in die Seiten eindringt, um so viele Daten wie möglich zu sammeln. Wenn der Bot diese URLs besucht, kann Cloudflare sicher sein, dass es sich nicht um echte menschliche Nutzer handelt, und diese Informationen werden aufgezeichnet und automatisch in die maschinellen Lernmodelle von Cloudflare eingespeist, um die Bot-Erkennung zu verbessern. So entsteht ein positiver Kreislauf, bei dem jeder Crawl-Versuch zum Schutz aller Cloudflare-Kunden beiträgt.

 

Zukunftsaussichten

Dies ist nur der erste Versuch von Cloudflare, Bots mit generativer KI zu bekämpfen. Im Moment generiert das "KI-Labyrinth" zwar genug Inhalt, um einen Bot zu verwirren, aber es passt möglicherweise nicht perfekt in die bestehende Struktur der jeweiligen Website. In Zukunft wird Cloudflare weiter daran arbeiten, dass diese Links schwerer zu erkennen sind und sich nahtlos in die bestehende Struktur der eingebetteten Websites einfügen. Nutzer können Cloudflare dabei helfen, diese Funktion zu verbessern, indem sie sich dafür entscheiden, "AI Maze" jetzt zu aktivieren.

Wenn Sie den nächsten Schritt im Kampf gegen Bot machen wollen, tun Sie dies bitte jetzt.Das KI-Labyrinth aktivieren.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Cloudflare startet AI Maze: Bösartige Crawler mit generativer KI bekämpfen
de_DEDeutsch