Aprendizagem pessoal com IA
e orientação prática

Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Introdução geral

O Crawl4AI é uma ferramenta de rastreamento assíncrono da Web de código aberto projetada para modelos de linguagem grande (LLMs) e aplicativos de inteligência artificial (IA). Ele simplifica o processo de rastreamento da Web e de extração de dados, oferece suporte ao rastreamento eficiente da Web e fornece formatos de saída compatíveis com LLMs, como JSON, HTML limpo e Markdown. O Crawl4AI oferece suporte ao rastreamento de vários URLs ao mesmo tempo, é totalmente gratuito e de código aberto e é adequado para uma variedade de necessidades de rastreamento de dados.

Documentação oficial de ajuda


Experiência on-line

 

Lista de funções

  • Arquitetura assíncrona: processamento eficiente de várias páginas da Web, rastreamento rápido de dados
  • Vários formatos de saída: suporte a JSON, HTML, Markdown
  • Rastreamento de vários URLs: rastreie várias páginas da Web ao mesmo tempo
  • Extração de tags de mídia: extraia tags de imagem, áudio e vídeo
  • Extração de links: extrai todos os links externos e internos
  • Extração de metadados: extração de metadados de uma página
  • Ganchos personalizados: suporte para autenticação, cabeçalhos de solicitação e modificações de página
  • Personalização do agente do usuário: personalização dos agentes do usuário
  • Captura de tela da página: Captura de tela da página de rastreamento
  • Executar JavaScript personalizado: Executar vários JavaScripts personalizados antes do rastreamento
  • Suporte a proxy: aprimorando a privacidade e o acesso
  • Gerenciamento de sessões: como lidar com cenários complexos de rastreamento de várias páginas

 

Usando a Ajuda

Processo de instalação

O Crawl4AI oferece opções de instalação flexíveis para uma variedade de cenários de uso. Você pode instalá-lo como um pacote Python ou usar o Docker.

Instalação com pip

  1. Instalação básica
    pip install crawl4ai
    

    Isso instalará a versão assíncrona do Crawl4AI por padrão, usando o Playwright para rastreamento da Web.

  2. Instalação manual do Playwright (se necessário)
    instalação de dramaturgo
    

    ou

    python -m playwright install chromium
    

Instalação com o Docker

  1. Extração de uma imagem do Docker
    docker pull unclecode/crawl4ai
    
  2. Execução de contêineres do Docker
    docker run -it unclecode/crawl4ai
    

Diretrizes para uso

  1. Uso básico
    de crawl4ai importação AsyncWebCrawler
    
    rastreador = AsyncWebCrawler()
    resultados = crawler.crawl(["https://example.com"])
    impressão(resultados)
    
  2. Configurações personalizadas
    de crawl4ai importação AsyncWebCrawler
    
    crawler = AsyncWebCrawler(
        user_agent="CustomUserAgent" (Agente de usuário personalizado),
        headers={"Authorization" (Autorização): "Portador token"},
        custom_js=["console.log('Hello, world!')"]
    )
    resultados = crawler.crawl(["https://example.com"])
    impressão(resultados)
    
  3. Extração de dados específicos
    de crawl4ai importação AsyncWebCrawler
    
    rastreador = AsyncWebCrawler()
    resultados = crawler.crawl(["https://example.com"], extract_media=Verdadeiro, extract_links=Verdadeiro)
    impressão(resultados)
    
  4. Gerenciamento de sessões
    de crawl4ai importação AsyncWebCrawler
    
    rastreador = AsyncWebCrawler()
    sessão = crawler.create_session()
    session_results = session.crawl([)"https://example.com"])
    impressão(resultados_da_sessão)
    

O Crawl4AI oferece um rico conjunto de recursos e opções de configuração flexíveis para uma variedade de necessidades de rastreamento da Web e de dados. Com guias detalhados de instalação e uso, os usuários podem começar facilmente e aproveitar ao máximo os recursos avançados da ferramenta.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil