Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Recursos mais recentes de IAAtualizado há 10 meses Círculo de compartilhamento de IA

14.8K 00

Introdução geral

O Crawl4AI é uma ferramenta de rastreamento assíncrono da Web de código aberto projetada para modelos de linguagem grande (LLMs) e aplicativos de inteligência artificial (IA). Ele simplifica o processo de rastreamento da Web e de extração de dados, oferece suporte ao rastreamento eficiente da Web e fornece formatos de saída compatíveis com LLMs, como JSON, HTML limpo e Markdown. O Crawl4AI oferece suporte ao rastreamento de vários URLs ao mesmo tempo, é totalmente gratuito e de código aberto e é adequado para uma variedade de necessidades de rastreamento de dados.

Documentação oficial de ajuda

Experiência on-line

Lista de funções

Arquitetura assíncrona: processamento eficiente de várias páginas da Web, rastreamento rápido de dados
Vários formatos de saída: suporte a JSON, HTML, Markdown
Rastreamento de vários URLs: rastreie várias páginas da Web ao mesmo tempo
Extração de tags de mídia: extraia tags de imagem, áudio e vídeo
Extração de links: extrai todos os links externos e internos
Extração de metadados: extração de metadados de uma página
Ganchos personalizados: suporte para autenticação, cabeçalhos de solicitação e modificações de página
Personalização do agente do usuário: personalização dos agentes do usuário
Captura de tela da página: Captura de tela da página de rastreamento
Executar JavaScript personalizado: Executar vários JavaScripts personalizados antes do rastreamento
Suporte a proxy: aprimorando a privacidade e o acesso
Gerenciamento de sessões: como lidar com cenários complexos de rastreamento de várias páginas

Usando a Ajuda

Processo de instalação

O Crawl4AI oferece opções de instalação flexíveis para uma variedade de cenários de uso. Você pode instalá-lo como um pacote Python ou usar o Docker.

Instalação com pip

Instalação básica
```
pip install crawl4ai
```
Isso instalará a versão assíncrona do Crawl4AI por padrão, usando o Playwright para rastreamento da Web.

Instalação manual do Playwright (se necessário)

playwright install

python -m playwright install chromium

Instalação com o Docker

Extração de uma imagem do Docker
```
docker pull unclecode/crawl4ai
```
Execução de contêineres do Docker
```
docker run -it unclecode/crawl4ai
```

Diretrizes para uso

Uso básico

from crawl4ai import AsyncWebCrawler

crawler = AsyncWebCrawler()
results = crawler.crawl(["https://example.com"])
print(results)

Configurações personalizadas

from crawl4ai import AsyncWebCrawler

crawler = AsyncWebCrawler(
    user_agent="CustomUserAgent",
    headers={"Authorization": "Bearer token"},
    custom_js=["console.log('Hello, world!')"]
)
results = crawler.crawl(["https://example.com"])
print(results)

Extração de dados específicos

from crawl4ai import AsyncWebCrawler

crawler = AsyncWebCrawler()
results = crawler.crawl(["https://example.com"], extract_media=True, extract_links=True)
print(results)

Gerenciamento de sessões

from crawl4ai import AsyncWebCrawler

crawler = AsyncWebCrawler()
session = crawler.create_session()
session_results = session.crawl(["https://example.com"])
print(session_results)

O Crawl4AI oferece um rico conjunto de recursos e opções de configuração flexíveis para uma variedade de necessidades de rastreamento da Web e de dados. Com guias detalhados de instalação e uso, os usuários podem começar facilmente e aproveitar ao máximo os recursos avançados da ferramenta.

Recursos mais recentes de IA # Projeto de código aberto AI Java

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Nemotron: ferramenta aprimorada de bate-papo com IA com o modelo gratuito Nemotron 70B baseado no Llama 3.1

Recursos mais recentes de IA Plataforma de diálogo multimodelo integrada de IA #

10 meses atrás

012.3K

R1-Onevision: um modelo de linguagem visual de código aberto que oferece suporte ao raciocínio multimodal

Recursos mais recentes de IA # Projeto de código aberto AI Java

6 meses atrás

011.5K

Freshworks: uma plataforma em nuvem de atendimento ao cliente alimentada por IA

Recursos mais recentes de IA Robô de atendimento ao cliente # AI # AI Marketing

5 meses atrás

011.5K

Obsidian Copilot：在Obsidian中使用AI助手体验智能化笔记助手

Obsidian Copilot: experimente o assistente inteligente de anotações com o AI Assistant na Obsidian

Recursos mais recentes de IA # Projeto de código aberto AI Java Notas de IA do #

8 meses atrás

017.8K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Instalação com pip

Instalação com o Docker

Diretrizes para uso

Cloudflare Serverless Registry: um registro de contêineres sem servidor baseado em Cloudflare Workers

QuickPiperAudiobook: uma chave para gerar audiolivros com qualidade de som natural, suporte para PDF, epub, docx e outros formatos

Artigos relacionados

Nemotron: ferramenta aprimorada de bate-papo com IA com o modelo gratuito Nemotron 70B baseado no Llama 3.1

R1-Onevision: um modelo de linguagem visual de código aberto que oferece suporte ao raciocínio multimodal

Freshworks: uma plataforma em nuvem de atendimento ao cliente alimentada por IA

Obsidian Copilot: experimente o assistente inteligente de anotações com o AI Assistant na Obsidian

Sem comentários

Últimas coleções

Artigos mais recentes

Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Instalação com pip

Instalação com o Docker

Diretrizes para uso

Cloudflare Serverless Registry: um registro de contêineres sem servidor baseado em Cloudflare Workers

QuickPiperAudiobook: uma chave para gerar audiolivros com qualidade de som natural, suporte para PDF, epub, docx e outros formatos

Artigos relacionados

Nemotron: ferramenta aprimorada de bate-papo com IA com o modelo gratuito Nemotron 70B baseado no Llama 3.1

R1-Onevision: um modelo de linguagem visual de código aberto que oferece suporte ao raciocínio multimodal

Freshworks: uma plataforma em nuvem de atendimento ao cliente alimentada por IA

Obsidian Copilot: experimente o assistente inteligente de anotações com o AI Assistant na Obsidian

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes