Cloudflare lance AI Maze : contrer les crawlers malveillants grâce à l'IA générative
Les contenus générés par l'intelligence artificielle se développent à un rythme sans précédent : quatre des 20 posts les plus populaires sur Facebook à l'automne dernier auraient été générés par l'IA. En outre, Medium estime que 47% du contenu de sa plateforme provient également de l'IA. Comme tous les outils émergents, l'IA présente à la fois des applications positives et des risques d'être exploitée à des fins malveillantes.
Dans le même temps, nous avons observé une montée en puissance de nouveaux types de robots d'exploration du web utilisés par les entreprises d'IA pour entraîner leurs modèles. Ces robots d'IA effectuent plus de 50 milliards de requêtes par jour sur le réseau Cloudflare, ce qui représente près de 1% du total des requêtes de notre réseau. Bien que Cloudflare dispose déjà d'outils permettant d'identifier et de bloquer les robots d'IA non autorisés, la pratique a montré que le blocage pur et simple d'un robot malveillant peut inciter l'attaquant à changer de tactique, ce qui conduit à un "jeu du chat et de la souris" sans fin. Un jeu du chat et de la souris sans fin. Cloudflare souhaitait trouver un nouveau moyen de bloquer ces robots indésirables sans être détecté.
Pour y parvenir, Cloudflare a décidé d'adopter une stratégie qui est un outil courant pour les créateurs de robots, mais qui a rarement été appliquée dans le domaine de la défense : le contenu généré par l'IA. Lorsque Cloudflare détecte une exploration non autorisée, au lieu de bloquer purement et simplement la demande, il renvoie à une série de pages générées par l'IA. Le contenu de ces pages est suffisamment réaliste pour inciter le robot à poursuivre son exploration. Toutefois, ce contenu apparemment réel ne correspond pas aux données réelles du site lui-même, ce qui permet au robot d'exploration de perdre du temps et des ressources informatiques sur de fausses informations.
Le "labyrinthe d'IA" présente l'avantage supplémentaire d'être une nouvelle génération de technologie de pot de miel. Étant donné qu'un utilisateur humain normal ne s'aventurerait jamais dans un labyrinthe de liens sans signification généré par l'IA, tout visiteur obsessionnel est très probablement un robot. Cloudflare dispose ainsi d'un nouvel outil pour identifier et marquer les robots malveillants et les ajouter à la liste des acteurs malveillants connus. Voici comment fonctionne le "labyrinthe de l'IA".
"Comment le labyrinthe a été construit.
Lorsque les robots d'IA suivent ces liens, ils consomment de précieuses ressources informatiques pour traiter des contenus non pertinents au lieu de parcourir le site à la recherche de données réelles. Cela réduit considérablement la capacité des robots d'IA à collecter efficacement des informations pour former des modèles.
Afin de générer un contenu humain aussi authentique que possible, Cloudflare s'est appuyé sur Workers AI, combiné à des modèles open source, pour créer des pages HTML uniques sur une variété de sujets. Pour éviter l'impact sur les performances de la génération de contenu à la demande, Cloudflare a mis en œuvre un processus de pré-génération, nettoyé le contenu pour éviter les vulnérabilités XSS et stocké le contenu dans R2 pour une récupération rapide.Cloudflare a constaté que l'identification d'une variété de sujets et la génération de contenu pour chaque sujet produisaient des résultats plus variés et confus. De plus, Cloudflare tient à éviter de générer du contenu inexact qui pourrait contribuer à la propagation de la désinformation sur Internet. Par conséquent, le contenu généré par le "AI Maze" est authentique et pertinent par rapport aux faits scientifiques, mais pas par rapport au contenu des sites web explorés.
Ce contenu pré-généré est intégré de manière transparente dans les liens cachés des pages existantes grâce au processus de conversion HTML personnalisé de Cloudflare, sans détruire la structure et le contenu originaux de la page. Chaque page générée comprend des directives méta appropriées pour protéger le référencement et empêcher l'indexation par les moteurs de recherche, et Cloudflare veille également à ce que ces liens soient invisibles pour les visiteurs humains grâce à des attributs et à un style soigneusement conçus. Pour minimiser encore l'impact sur les visiteurs normaux, ces liens ne sont présentés qu'aux robots d'indexation suspectés d'être des IA, ce qui permet aux utilisateurs légitimes et aux robots d'indexation authentifiés de les voir comme d'habitude.

Figure : Tableau de comparaison des requêtes quotidiennes des robots d'IA, comparaison des données des robots par catégorie.
Ce qui rend cette approche efficace, c'est le rôle qu'elle joue dans le système évolutif de détection des robots de Cloudflare. Lorsque ces liens cachés sont visités, Cloudflare peut être certain qu'il ne s'agit pas du comportement d'un utilisateur humain, mais plutôt d'un crawler automatisé en action, car les visiteurs humains et les navigateurs normaux ne verront jamais ces liens et ne cliqueront jamais dessus. Cloudflare dispose ainsi d'un puissant mécanisme d'identification qui génère des données précieuses pour alimenter les modèles d'apprentissage automatique. En analysant les robots qui suivent ces chemins cachés, Cloudflare peut identifier de nouveaux modèles et caractéristiques de Bot qui seraient autrement difficiles à détecter. Cette approche proactive permet à Cloudflare de garder une longueur d'avance dans le domaine des robots d'indexation, en améliorant continuellement les capacités de détection sans perturber l'expérience de navigation normale de l'utilisateur.
En construisant cette solution sur la plateforme Cloudflare Developer, Cloudflare a créé un système qui fournit un contenu leurre instantanément réaliste et maintient une qualité de contenu constante sans impact sur les performances du site ou l'expérience de l'utilisateur.
Comment arrêter les robots d'IA avec AI Maze
Pour activer le Labyrinthe de l'IA, il suffit d'appuyer sur un interrupteur dans le tableau de bord de Cloudflare. Rendez-vous dans la section Bot Management de votre région et activez le nouveau paramètre "AI Maze" (labyrinthe d'IA) :


Une fois activé, le labyrinthe d'IA commencera à fonctionner immédiatement sans aucune configuration supplémentaire.
Pot de miel d'IA, créé par l'IA
La force principale du "labyrinthe de l'IA" est d'embrouiller et de distraire le bot. Cependant, une autre valeur importante est qu'il agit comme un pot de miel de nouvelle génération. Dans ce contexte, un pot de miel est un lien caché, invisible pour le visiteur d'un site web, mais qu'un robot analysant le code HTML reconnaît et sur lequel il clique, s'exposant ainsi. La technologie du "pot de miel" a été utilisée pour attraper des pirates informatiques dans les premiers temps, comme dans le cas de "l'incident de l'œuf de coucou" en 1986. En 2004, les fondateurs de Cloudflare (avant de créer Cloudflare) ont créé le projet Honeypot pour permettre à tout un chacun de déployer facilement des pots de miel gratuits pour le courrier électronique et de contribuer à une base de données en échange d'une liste d'adresses IP de robots d'indexation. Mais avec l'évolution des robots, ceux-ci recherchent désormais activement les techniques de honeypotting, telles que les liens cachés, ce qui rend les méthodes traditionnelles de honeypotting moins efficaces.
Le "AI Maze" ne se contente pas d'ajouter des liens cachés, il finit par créer des réseaux entiers d'URL interconnectés qui sont plus réalistes et difficiles à reconnaître pour les programmes automatisés. Le contenu de la page n'est évidemment pas quelque chose qu'un humain passerait du temps à parcourir, mais le robot d'IA est programmé pour explorer en profondeur afin de recueillir autant de données que possible. Lorsque le robot visite ces URL, Cloudflare peut être certain qu'il ne s'agit pas d'utilisateurs humains réels, et ces informations sont enregistrées et automatiquement réinjectées dans les modèles d'apprentissage automatique de Cloudflare pour aider à améliorer la reconnaissance du robot. Cela crée un cercle vertueux où chaque tentative de crawl aide à protéger tous les clients de Cloudflare.
perspectives d'avenir
Ce n'est que la première tentative de Cloudflare pour contrer les robots avec l'IA générative. Pour l'instant, si le "labyrinthe d'IA" génère suffisamment de contenu pour confondre un robot, il peut ne pas s'intégrer parfaitement à la structure existante de chaque site web. À l'avenir, Cloudflare continuera à travailler pour rendre ces liens plus difficiles à détecter et leur permettre de s'intégrer de manière transparente dans la structure existante des sites web intégrés. Les utilisateurs peuvent aider Cloudflare à améliorer cette fonctionnalité en choisissant d'activer "AI Maze" dès maintenant.
Pour faire un pas de plus dans la lutte contre le Bot, faites-le maintenant.Permettre le labyrinthe de l'IA.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...