Antes da discussão formal, é necessário esclarecer o conceito de rastreador de IA (também conhecido como rastreador de LLM), que pode ser dividido em duas categorias: uma delas é a ferramenta de rastreamento convencional, exceto que seus resultados são usados diretamente no contexto do LLM, o que, a rigor, não tem nada a ver com a IA; a outra é um novo tipo de programa de rastreamento conduzido pelo LLM, em que o usuário especifica o alvo da coleta de dados por meio de linguagem natural. O outro é um novo tipo de solução de rastreamento orientada pelo LLM, em que o usuário especifica o alvo para a coleta de dados por meio de linguagem natural e, em seguida, o LLM analisa a estrutura da página da Web, desenvolve uma estratégia de rastreamento, executa interações para obter dados dinâmicos e, por fim, retorna o conteúdo alvo estruturado.
Programa de rastreamento orientado por LLM
Sobre a ideia de um rastreador da Web genérico orientado por IA e métodos práticos, você pode ler este artigo detalhadamente. O autor vai da ideia à solução e, em seguida, ao ajuste e à análise dos resultados, muito detalhados e repletos de artigos secos. Todo o processo é uma simulação exaustiva das etapas humanas:
- Primeiro, rastreie todo o código HTML da página da Web.
- A IA é então usada para gerar uma série de termos relacionados, por exemplo, ao procurar preços, a IA gera palavras-chave relacionadas (preços, taxa, custo, etc.).
- Pesquise a estrutura HTML com base nessas palavras-chave para localizar uma lista de nós relevantes.
- Use a IA para analisar a lista de nós e identificar os mais relevantes.
- A IA do aplicativo determina se é necessária uma interação com o nó (geralmente uma ação de clique).
- Repita as etapas acima até obter o resultado final.
Skyvern
O Skyvern é uma ferramenta de automação de navegador baseada em um modelo multimodal projetado para aumentar a eficiência e a adaptabilidade da automação do fluxo de trabalho. Ao contrário das abordagens tradicionais de automação, que geralmente dependem de scripts específicos do site, análise de DOM e caminhos XPath que tendem a falhar quando os layouts do site mudam, o Skyvern gera planos de interação analisando elementos visuais na janela do navegador em tempo real, em conjunto com o LLM, o que permite que ele seja executado em sites desconhecidos sem código personalizado e seja muito mais resistente a mudanças no layout do site. mudanças. Os fluxos de trabalho baseados em navegador são automatizados pela incorporação de bibliotecas de automação de navegador, como a Playwright, que consiste nos seguintes agentes principais:
- Interactable Element Agent: responsável por analisar a estrutura HTML de uma página da Web e extrair elementos interativos.
- Agente de navegação: responsável por planejar o caminho de navegação necessário para concluir a tarefa, como clicar em botões, inserir texto etc.
- Agente de extração de dados: responsável pela extração de dados de páginas da Web, capaz de ler tabelas e textos e gerar dados em um formato estruturado definido pelo usuário.
- Password Agent: responsável por preencher os formulários de senha do site, capaz de ler nomes de usuário e senhas de um gerenciador de senhas e preencher os formulários, protegendo a privacidade do usuário.
- Agente 2FA: responsável por preencher o formulário 2FA, capaz de interceptar solicitações 2FA de um site e obter o código 2FA por meio de uma API definida pelo usuário ou aguardar que o usuário o insira manualmente.
- Agente dinâmico de autocompletar: responsável pelo preenchimento de formulários dinâmicos de autocompletar, capaz de selecionar as opções apropriadas e ajustar a entrada com base na entrada do usuário e no feedback do formulário.
ScrapegraphAI
O ScrapeGraphAI reduz a necessidade de codificação manual, automatizando a construção de pipelines de rastreamento por meio de modelos de big talk e lógica de gráficos. O usuário comum simplesmente especifica as informações necessárias e o ScrapeGraphAI lida automaticamente com tarefas de rastreamento de uma ou várias páginas para rastrear páginas da Web com eficiência. Ele é compatível com uma ampla variedade de formatos de documentos, como XML, HTML, JSON e Markdown, e o ScrapeGraphAI oferece vários tipos de rastreamento, incluindo:
- SmartScraperGraphRastreamento de página única: o rastreamento de página única pode ser feito com apenas um prompt de usuário e uma fonte de entrada.
- Gráfico de pesquisaRastreador de várias páginas: um rastreador de várias páginas que extrai informações dos principais resultados de pesquisa.
- Gráfico de falaGrabber: um grabber de uma página que converte o conteúdo do site em arquivos de áudio.
- ScriptCreatorGraphCapturador de página única que cria scripts Python para os dados extraídos.
- SmartScraperMultiGraphRastreamento de várias páginas por meio de um único prompt e uma variedade de fontes.
- ScriptCreatorMultiGraphRastreador de várias páginas: um rastreador de várias páginas que extrai informações de várias páginas e fontes e cria os scripts Python correspondentes.
O ScrapeGraphAI simplifica o processo de raspagem da Web, permitindo que pessoas comuns automatizem tarefas de raspagem sem conhecimento profundo de programação, simplesmente fornecendo requisitos de informações, suportando a raspagem de uma única página a várias páginas para tarefas de extração de dados de tamanhos variados e fornecendo um pipeline de diferentes usos para diferentes necessidades de raspagem, incluindo extração de informações, geração de áudio e criação de scripts.
Ferramentas de rastreamento convencionais
Essas ferramentas fazem isso limpando e convertendo o conteúdo on-line regular da Web em formato Markdown para melhor compreensão e processamento pelo Big Model (as respostas do Big Model são de maior qualidade quando os dados estão em um formato estruturado e Markdown), e o conteúdo convertido serve como contexto para o LLM, permitindo que o modelo responda a perguntas em conjunto com recursos on-line.
Crawl4AI
Crawl4AI é um rastreador da Web de código aberto e uma estrutura de extração de dados projetada especificamente para aplicativos de IA, permitindo que vários URLs sejam rastreados simultaneamente, reduzindo significativamente o tempo necessário para a coleta de dados em grande escala:
- Vários formatos de saídaSuporte a vários formatos de saída, como JSON, HTML mínimo e Markdown.
- Suporte a conteúdo dinâmicoCódigo JavaScript personalizado: Por meio do código JavaScript personalizado, o Crawl4AI pode simular o comportamento do usuário, como clicar no botão "Próximo" para carregar mais conteúdo dinâmico. Essa abordagem permite que o Crawl4AI lide com mecanismos comuns de carregamento de conteúdo dinâmico, como paginação e rolagem infinita.
- Várias estratégias de fragmentaçãoSuporte a uma variedade de estratégias de fragmentação, como tópicos, expressões regulares e frases, permitindo que os usuários personalizem os dados de acordo com necessidades específicas.
- extração de mídiaUtilizando métodos avançados, como XPath e expressões regulares, que permitem aos usuários identificar e extrair os dados de que precisam, ele é capaz de extrair uma ampla variedade de tipos de mídia, incluindo imagens, áudio e vídeo, e é particularmente útil para aplicativos que dependem de conteúdo multimídia.
- Ganchos personalizadosOs usuários podem definir hooks personalizados, como os que são executados no início da execução do rastreador.
on_execution_started
hook. Isso pode ser usado para garantir que todo o JavaScript necessário tenha sido executado e que o conteúdo dinâmico tenha sido carregado na página antes do início do rastreamento. - boa estabilidadeO rastreamento de conteúdo dinâmico pode falhar devido a problemas de rede ou erros de execução de JavaScript, e o mecanismo de tratamento de erros e repetição do Crawl4AI garante que, mesmo quando esses problemas são encontrados, os dados podem ser repetidos para garantir a integridade e a precisão.
Leitor
Ferramenta de rastreamento de conteúdo da Web desenvolvida pela Jina AI API do leitor Além disso, o usuário pode limpar e formatar o conteúdo de uma página simplesmente digitando o URL e produzindo-o em texto simples ou no formato Markdown. O objetivo é converter qualquer página da Web em um formato de entrada adequado para a compreensão por modelos grandes, ou seja, conteúdo de rich text em texto simples, por exemplo, imagens em texto descritivo.
Firecrawl
O Firecrawl foi projetado para ser mais elegante e avançado do que o Reader, e é um produto mais maduro. Ele fornece uma interface API simplificada para rastrear e extrair dados de um site inteiro. O Firecrawl é capaz de converter o conteúdo do site em Markdown, dados formatados, capturas de tela, HTML condensado, hiperlinks e metadados para oferecer melhor suporte ao uso do LLM. Além disso, o Firecrawl tem a capacidade de lidar com tarefas complexas, como configuração de proxy, mecanismos anti-crawler, manipulação de conteúdo dinâmico, como renderização de JavaScript, análise de saída e coordenação de tarefas. Os desenvolvedores podem personalizar o comportamento do rastreador, como excluir tags específicas, rastrear páginas que exigem autenticação, definir a profundidade máxima de rastreamento etc. O Firecrawl suporta a análise de dados de uma ampla variedade de tipos de mídia, incluindo PDFs, documentos DOCX e imagens. Sua confiabilidade garante o acesso efetivo aos dados necessários em uma variedade de ambientes complexos. Os usuários podem interagir com páginas da Web simulando cliques, rolagem, digitação etc. A versão mais recente também oferece suporte ao processamento em lote de um grande número de URLs.
- Suporte a várias linguagens de programação SDK: Python, Node, Go, Rust
- Compatível com várias estruturas de desenvolvimento de IA: [Langchain (Python)](https://python.langchain.com/docs/integrations/document_loaders/firecrawl/ "Langchain (Python " Langchain (Python)")"), [Langchain (JS)](https://js.langchain.com/docs/integrations/document_loaders/web_loaders/firecrawl "Langchain ( JS "Langchain (JS)")"), LlamaIndex, Crew.ai, Composio, PraisonAI, Superinterface, Vectorize
- Suporte à plataforma de IA de baixo código: Dify, Langflow, Flowise AI, Cargo, Pipedream
- Suporte a ferramentas de automação: Zapier, Pabbly Connect
Markdowner
Se você não puder pagar pelas duas primeiras ferramentas ou se implantá-las por conta própria consumir muitos recursos, considere o uso do Markdowner, que converte o conteúdo do site em formato Markdown e, embora não tenha tantos recursos quanto o Firecrawl, é mais do que adequado para as necessidades diárias. A ferramenta é compatível com rastreamento automatizado, filtragem LLM, esquema Markdown detalhado e formatos de resposta de texto e JSON. O Markdowner fornece uma interface de API que permite aos usuários acessá-lo por meio de solicitações GET e personalizar o tipo de resposta e o conteúdo por meio de parâmetros de URL. Tecnicamente, o Markdowner usa as bibliotecas Cloudflare Workers e Turndown para transformação de conteúdo da Web.
O resto
Os rastreadores semelhantes incluem webscraper, code-html-to-markdown (que é particularmente bom para lidar com blocos de código), MarkdownDown, gpt-api e web.scraper.workers.dev (Ferramenta sempre usada que suporta filtragem de conteúdo e acesso a conteúdo pago com pequenas modificações), essas ferramentas, após a autoimplantação, podem ser usadas como plug-ins para modelos grandes para acessar o conteúdo on-line e pertencem à fase de pré-processamento de dados como ferramentas importantes.
escrever no final
As ferramentas de rastreamento convencionais não têm muito a explorar, nem a introdução de nenhuma nova tecnologia, exceto pelo fato de que o LLM gerou uma nova geração de ferramentas de rastreamento, melhorando significativamente a experiência do desenvolvedor, apenas uma API que pode ser personalizada de forma flexível para rastrear o conteúdo necessário, melhorando muito a conveniência. Vale a pena observar que os rastreadores orientados por LLM são, na verdade, parte do Claude Por exemplo, o projeto UFO da Microsoft (que simula a operação humana de computadores Windows), o AutoGLM da Smart Spectrum e o AppAgent da Tencent (que simula a operação humana de telefones celulares) são exemplos de direções de pesquisa que podem abranger a operação do navegador. Portanto, as ferramentas de rastreamento orientadas por LLM podem ser apenas uma solução temporária por enquanto, e serão substituídas por projetos mais abrangentes no futuro.