Cloudflare lanza AI Maze: contra los rastreadores maliciosos con IA generativa

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

44.9K 00

Los contenidos generados por inteligencia artificial están creciendo a un ritmo sin precedentes: cuatro de las 20 publicaciones más populares de Facebook el pasado otoño fueron generadas por IA. Además, Medium calcula que el 47% del contenido de su plataforma también procede de la IA.Como ocurre con todas las herramientas emergentes, la IA tiene tanto aplicaciones positivas como riesgos de ser explotada con fines maliciosos.

Al mismo tiempo, hemos observado un aumento de los nuevos tipos de rastreadores web utilizados por las empresas de IA para entrenar sus modelos. Estos rastreadores de IA realizan más de 50.000 millones de solicitudes al día a la red de Cloudflare, lo que supone casi 1% del total de solicitudes de nuestra red. Aunque Cloudflare ya dispone de herramientas para identificar y bloquear el rastreo de IA no autorizado, la práctica ha demostrado que bloquear directamente un Bot malicioso puede alertar al atacante de un cambio de táctica, lo que lleva a un interminable "juego del gato y el ratón". un interminable juego del gato y el ratón Cloudflare quería encontrar una nueva forma de bloquear estos bots no deseados sin ser detectados.

Para conseguirlo, Cloudflare decidió adoptar una estrategia que es una herramienta habitual para los creadores de bots, pero que rara vez se había aplicado antes en el espacio de defensa: el contenido generado por IA. Cuando Cloudflare detecta un rastreo no autorizado, en lugar de bloquear directamente la solicitud, enlaza con una serie de páginas generadas por la IA. El contenido de estas páginas es lo suficientemente realista como para atraer al rastreador. Sin embargo, este contenido aparentemente real no corresponde en realidad a los datos reales del sitio, lo que permite al rastreador perder tiempo y recursos informáticos en información falsa.

El "laberinto de IA" tiene la ventaja añadida de ser una nueva generación de tecnología honeypot. Dado que un usuario humano normal nunca se adentraría en un laberinto de enlaces sin sentido generado por la IA, cualquier visitante obsesivo sería con toda probabilidad un Bot. Cualquier visitante persistente es muy probablemente un Bot, lo que proporciona a Cloudflare una nueva herramienta para identificar y etiquetar Bots maliciosos y añadirlos a la lista de actores maliciosos conocidos. He aquí cómo funciona exactamente el "Laberinto de la IA".

"Cómo se construyó el laberinto.

Cuando los rastreadores de IA siguen estos enlaces, consumen valiosos recursos informáticos para procesar contenido irrelevante en lugar de rastrear el sitio en busca de datos reales. Esto reduce en gran medida la capacidad de los rastreadores de IA para recopilar información de forma eficiente para entrenar modelos.

Con el fin de generar contenido similar al humano que sea lo más auténtico posible, Cloudflare aprovechó la IA de Workers, combinada con modelos de código abierto, para crear páginas HTML únicas sobre una variedad de temas. Para evitar el impacto en el rendimiento de la generación de contenido bajo demanda, Cloudflare implementó un proceso de pregeneración, limpió el contenido para evitar vulnerabilidades XSS y almacenó el contenido en R2 para una rápida recuperación.Cloudflare descubrió que identificar una variedad de temas y luego generar contenido para cada tema producía resultados más variados y confusos. Además, Cloudflare quiere evitar la generación de contenidos inexactos que puedan contribuir a la difusión de desinformación en Internet. Como resultado, el contenido generado por el "Laberinto de la IA" es auténtico y relevante para los hechos científicos, pero no para el contenido de los sitios web rastreados.

Este contenido pregenerado se integra perfectamente en los enlaces ocultos de las páginas existentes mediante el proceso de conversión HTML personalizado de Cloudflare, sin destruir la estructura ni el contenido originales de la página. Cada página generada incluye las directivas meta adecuadas para proteger el SEO y evitar la indexación por parte de los motores de búsqueda, y Cloudflare también garantiza que estos enlaces sean invisibles para los visitantes humanos mediante atributos y estilos cuidadosamente elaborados. Para minimizar aún más el impacto en los visitantes normales, estos enlaces solo se presentan a rastreadores sospechosos de IA, lo que permite que los usuarios legítimos y los rastreadores autenticados los vean con normalidad.

Figura: Gráfico comparativo de solicitudes diarias de AI Crawler, comparación de datos de Crawler por categoría.

Lo que hace que este enfoque sea eficaz es el papel que desempeña en el sistema de detección de bots en evolución de Cloudflare. Cuando se visitan estos enlaces ocultos, Cloudflare puede estar muy segura de que no se trata del comportamiento de un usuario humano, sino de un rastreador automatizado en acción, ya que los visitantes humanos y los navegadores normales nunca verán ni harán clic en estos enlaces. Esto proporciona a Cloudflare un potente mecanismo de identificación que genera datos valiosos que alimentan los modelos de aprendizaje automático. Al analizar qué rastreadores siguen estas rutas ocultas, Cloudflare puede identificar nuevos patrones y características de Bot que de otro modo serían difíciles de detectar. Este enfoque proactivo ayuda a Cloudflare a mantenerse a la vanguardia en el espacio de rastreadores de IA, mejorando continuamente las capacidades de detección sin interrumpir la experiencia de navegación normal del usuario.

Al crear esta solución en la plataforma para desarrolladores de Cloudflare, Cloudflare ha creado un sistema que ofrece contenido señuelo realista al instante y mantiene una calidad de contenido constante sin afectar al rendimiento del sitio ni a la experiencia del usuario.

Cómo detener a los rastreadores de IA con AI Maze

Activar el Laberinto de IA es tan sencillo como pulsar un interruptor en el panel de control de Cloudflare. Ve a la sección Gestión de bots de tu región y activa el nuevo ajuste "Laberinto de IA":

Una vez activado, el "Laberinto AI" empezará a funcionar inmediatamente sin ninguna configuración adicional.

honeypot de IA, creado por IA

El punto fuerte del "Laberinto de IA" es confundir y distraer al Bot. Sin embargo, otro valor importante es que actúa como un honeypot de nueva generación. En este contexto, un "honeypot" es un enlace oculto que resulta invisible para el visitante de un sitio web, pero que un bot que analiza el código HTML reconoce y pulsa, exponiéndose a sí mismo. La tecnología de "honeypot" se ha utilizado para atrapar a hackers en los primeros tiempos, como en el "Incidente del huevo del cuco" en 1986. en 2004, los fundadores de Cloudflare (antes de crear En 2004, los fundadores de Cloudflare (antes de crear Cloudflare) crearon Project Honeypot para facilitar que cualquiera pudiera desplegar honeypots de correo electrónico gratuitos y contribuir a una base de datos a cambio de una lista de IP de rastreadores. Pero a medida que los bots han evolucionado, ahora buscan activamente técnicas de honeypotting, como enlaces ocultos, lo que hace que los métodos tradicionales de honeypotting sean menos eficaces.

El "Laberinto de la IA" no sólo añade enlaces ocultos, sino que acaba creando redes enteras de URL interconectadas que resultan más realistas y difíciles de reconocer para los programas automatizados. Obviamente, el contenido de la página no es algo en lo que un humano pasaría tiempo navegando, pero el robot de IA está programado para rastrear en profundidad para recopilar tantos datos como sea posible. Cuando el bot visita estas URL, Cloudflare puede estar seguro de que no se trata de usuarios humanos reales, y esta información se registra y se introduce automáticamente en los modelos de aprendizaje automático de Cloudflare para ayudar a mejorar el reconocimiento de bots. Esto crea un círculo virtuoso en el que cada intento de rastreo ayuda a proteger a todos los clientes de Cloudflare.

perspectivas de futuro

Este es sólo el primer intento de Cloudflare de contrarrestar a los bots con IA generativa. Por ahora, aunque el "laberinto de IA" genera suficiente contenido para confundir a un Bot, puede que no encaje perfectamente en la estructura existente de cada sitio web. En el futuro, Cloudflare seguirá trabajando para que estos enlaces sean más difíciles de detectar y puedan encajar perfectamente en la estructura existente de los sitios web integrados. Los usuarios pueden ayudar a Cloudflare a mejorar esta función optando por activar "AI Maze" ahora.

Para dar el siguiente paso en la lucha contra Bot, hágalo ahora.Habilitar el laberinto de la IA.