Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

Cloudflare lança AI Maze: combatendo rastreadores maliciosos com IA generativa

O conteúdo gerado por inteligência artificial está crescendo a uma taxa sem precedentes, com quatro das 20 publicações mais populares no Facebook no último outono supostamente geradas por IA. Além disso, o Medium estima que 47% do conteúdo em sua plataforma também é proveniente de IA. Como acontece com todas as ferramentas emergentes, a IA tem aplicações positivas e riscos de ser explorada para fins maliciosos.

Ao mesmo tempo, observamos um aumento nos novos tipos de rastreadores da Web usados por empresas de IA para treinar seus modelos. Esses rastreadores de IA fazem mais de 50 bilhões de solicitações por dia à rede da Cloudflare, o que representa quase 1% do total de solicitações da nossa rede. Embora a Cloudflare já tenha ferramentas para identificar e bloquear o rastreamento de IA não autorizado, a prática tem demonstrado que o bloqueio total de um Bot mal-intencionado pode alertar o invasor para uma mudança de tática, levando a um interminável "jogo de gato e rato". jogo interminável de gato e rato. A Cloudflare queria encontrar uma nova maneira de bloquear esses bots indesejados sem ser detectada.


Para conseguir isso, a Cloudflare decidiu adotar uma estratégia que é uma ferramenta comum para os criadores de bots, mas que raramente foi aplicada no espaço de defesa: conteúdo gerado por IA. Quando a Cloudflare detecta um rastreamento não autorizado, em vez de bloquear totalmente a solicitação, ela se vincula a uma série de páginas geradas por IA. O conteúdo dessas páginas é realista o suficiente para induzir o rastreador a continuar o rastreamento. Entretanto, esse conteúdo aparentemente real não é de fato os dados reais do próprio site, permitindo que o rastreador perca tempo e recursos de computação com informações falsas.

O "labirinto de IA" tem a vantagem adicional de ser uma nova geração de tecnologia de honeypot. Como um usuário humano normal nunca se aprofundaria em um labirinto gerado por IA de links sem sentido, qualquer visitante obsessivo provavelmente seria um bot. Qualquer visitante persistente é provavelmente um bot, o que dá à Cloudflare uma nova ferramenta para identificar e marcar bots mal-intencionados e adicioná-los à lista de agentes mal-intencionados conhecidos. Veja exatamente como funciona o "AI Maze".

 

"Como o labirinto foi construído.

Quando os rastreadores de IA seguem esses links, eles consomem valiosos recursos de computação para processar conteúdo irrelevante em vez de rastrear o site em busca de dados reais. Isso diminui muito a capacidade dos rastreadores de IA de coletar informações de forma eficiente para treinar modelos.

Para gerar conteúdo semelhante ao humano que seja o mais autêntico possível, a Cloudflare aproveitou a IA do Workers, combinada com modelos de código aberto, para criar páginas HTML exclusivas sobre uma variedade de tópicos. Para evitar o impacto no desempenho da geração de conteúdo sob demanda, a Cloudflare implementou um processo de pré-geração, limpou o conteúdo para evitar vulnerabilidades de XSS e armazenou o conteúdo no R2 para recuperação rápida. A Cloudflare descobriu que identificar uma variedade de tópicos e depois gerar conteúdo para cada tópico produzia resultados mais variados e confusos. Além disso, a Cloudflare está empenhada em evitar a geração de conteúdo impreciso que possa contribuir para a disseminação de desinformação na Internet. Como resultado, o conteúdo gerado pelo "AI Maze" é autêntico e relevante para fatos científicos, mas não para o conteúdo dos sites que estão sendo rastreados.

Esse conteúdo pré-gerado é perfeitamente integrado aos links ocultos das páginas existentes por meio do processo de conversão de HTML personalizado da Cloudflare, sem destruir a estrutura e o conteúdo originais da página. Cada página gerada inclui diretivas meta apropriadas para proteger o SEO e impedir a indexação pelos mecanismos de busca, e a Cloudflare também garante que esses links sejam invisíveis para os visitantes humanos por meio de atributos e estilos cuidadosamente elaborados. Para minimizar ainda mais o impacto sobre os visitantes normais, esses links são apresentados apenas a rastreadores suspeitos de IA, permitindo que usuários legítimos e rastreadores autenticados os visualizem normalmente.

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

Figura: Gráfico de comparação de solicitações diárias de rastreadores de IA, comparação de dados de rastreadores por categoria.

O que torna essa abordagem eficaz é o papel que ela desempenha no sistema de detecção de bots em evolução da Cloudflare. Quando esses links ocultos são visitados, a Cloudflare pode estar altamente confiante de que não se trata do comportamento de um usuário humano, mas sim de um rastreador automatizado em ação, já que visitantes humanos e navegadores normais nunca verão ou clicarão nesses links. Isso fornece à Cloudflare um poderoso mecanismo de identificação que gera dados valiosos que alimentam os modelos de aprendizado de máquina. Ao analisar quais crawlers estão seguindo esses caminhos ocultos, a Cloudflare pode identificar novos padrões e recursos de bots que, de outra forma, seriam difíceis de detectar. Essa abordagem proativa ajuda a Cloudflare a se manter à frente no espaço dos rastreadores de IA, melhorando continuamente os recursos de detecção sem interromper a experiência normal de navegação dos usuários.

Ao desenvolver essa solução na Plataforma de Desenvolvedores da Cloudflare, a Cloudflare criou um sistema que fornece conteúdo de chamariz instantaneamente realista e mantém a qualidade consistente do conteúdo sem afetar o desempenho do site ou a experiência do usuário.

 

Como parar os rastreadores de IA com o AI Maze

Ativar o AI Labyrinth é tão simples quanto apertar um botão no painel da Cloudflare. Navegue até a seção Bot Management em sua região e, em seguida, alterne a nova configuração "AI Maze" para "On":

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-1

Cloudflare 推出 AI 迷宫:利用生成式 AI 反制恶意爬虫-2

Uma vez ativado, o AI Maze começará a funcionar imediatamente sem nenhuma configuração adicional.

 

honeypot de IA, criado por IA

A principal força do "AI Maze" é confundir e distrair o bot. No entanto, outro valor importante é que ele atua como um honeypot de última geração. Nesse contexto, um honeypot é um link oculto que é invisível para um visitante do site, mas que um bot que analisa o código HTML reconhece e clica nele, expondo-se. A tecnologia de "honeypot" foi usada para capturar hackers nos primórdios, como o "Incidente do Ovo de Cuco" em 1986. em 2004, os fundadores da Cloudflare (antes de criar a Em 2004, os fundadores da Cloudflare (antes de criar a Cloudflare) criaram o Project Honeypot para facilitar a implantação de honeypots de e-mail gratuitos e contribuir para um banco de dados em troca de uma lista de IPs de rastreamento. Mas, com a evolução dos bots, eles agora buscam ativamente técnicas de honeypotting, como links ocultos, o que torna os métodos tradicionais de honeypotting menos eficazes.

O "AI Maze" não apenas adiciona links ocultos, mas acaba criando redes inteiras de URLs interligados que são mais realistas e difíceis de serem reconhecidos por programas automatizados. Obviamente, o conteúdo da página não é algo que um ser humano gastaria tempo navegando, mas o AI Bot é programado para rastrear profundamente para coletar o máximo de dados possível. Quando o bot visita esses URLs, a Cloudflare pode ter certeza de que eles não são usuários humanos reais, e essas informações são registradas e automaticamente alimentadas nos modelos de aprendizado de máquina da Cloudflare para ajudar a melhorar o reconhecimento do bot. Isso cria um ciclo virtuoso em que cada tentativa de rastreamento ajuda a proteger todos os clientes da Cloudflare.

 

perspectivas futuras

Essa é apenas a primeira tentativa da Cloudflare de combater os bots com IA generativa. Por enquanto, embora o "labirinto de IA" gere conteúdo suficiente para confundir um bot, ele pode não se encaixar perfeitamente na estrutura existente de cada site. No futuro, a Cloudflare continuará trabalhando para tornar esses links mais difíceis de detectar e permitir que eles se encaixem perfeitamente na estrutura existente de sites incorporados. Os usuários podem ajudar a Cloudflare a melhorar esse recurso optando por ativar o "AI Maze" agora.

Para dar o próximo passo na luta contra o Bot, faça-o agora.Habilitando o labirinto de IA.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Cloudflare lança AI Maze: combatendo rastreadores maliciosos com IA generativa
pt_BRPortuguês do Brasil