Crawl4AI: herramienta asíncrona de código abierto para extraer datos estructurados sin LLM

Introducción general

Crawl4AI es una herramienta de rastreo web asíncrona de código abierto diseñada para grandes modelos lingüísticos (LLM) y aplicaciones de inteligencia artificial (IA). Simplifica el rastreo web y el proceso de extracción de datos, soporta el rastreo web eficiente, y proporciona formatos de salida LLM-amigables como JSON, HTML limpiado y Markdown.Crawl4AI soporta el rastreo de múltiples URLs al mismo tiempo, completamente libre y de código abierto, adecuado para una variedad de necesidades de rastreo de datos.

Documentación oficial de ayuda

Experiencia en línea

Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

 

Lista de funciones

  • Arquitectura asíncrona: procesamiento eficaz de varias páginas web, rastreo rápido de datos
  • Múltiples formatos de salida: soporta JSON, HTML, Markdown
  • Rastreo multi-URL: rastrea varias páginas web al mismo tiempo
  • Extracción de etiquetas multimedia: extrae etiquetas de imagen, audio y vídeo
  • Extracción de enlaces: extrae todos los enlaces externos e internos
  • Extracción de metadatos: extraer metadatos de las páginas
  • Ganchos personalizados: compatibilidad con autenticación, cabeceras de petición y modificaciones de página.
  • Personalización de los agentes de usuario
  • Captura de pantalla de la página: Captura de pantalla de la página de rastreo
  • Ejecutar JavaScript personalizado: Ejecutar varios JavaScripts personalizados antes del rastreo
  • Soporte de proxy: mejora de la privacidad y el acceso
  • Gestión de sesiones: manejo de escenarios complejos de rastreo multipágina

 

Utilizar la ayuda

Proceso de instalación

Crawl4AI ofrece opciones de instalación flexibles para una variedad de escenarios de uso. Puede instalarlo como un paquete Python o utilizar Docker.

Instalación con pip

  1. Instalación básica
    pip install crawl4ai
    

    Esto instalará la versión asíncrona de Crawl4AI por defecto, utilizando Playwright para el rastreo web.

  2. Instalación manual de Playwright (si es necesario)
    playwright install
    

    o

    python -m playwright install chromium
    

Instalación con Docker

  1. Extracción de una imagen Docker
    docker pull unclecode/crawl4ai
    
  2. Ejecución de contenedores Docker
    docker run -it unclecode/crawl4ai
    

Normas de uso

  1. Uso básico
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  2. Ajustes personalizados
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler(
        user_agent="CustomUserAgent",
        headers={"Authorization": "Bearer token"},
        custom_js=["console.log('Hello, world!')"]
    )
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  3. Extracción de datos específicos
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"], extract_media=True, extract_links=True)
    print(results)
    
  4. Gestión de sesiones
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    session = crawler.create_session()
    session_results = session.crawl(["https://example.com"])
    print(session_results)
    

Crawl4AI ofrece un amplio conjunto de funciones y opciones de configuración flexibles para una gran variedad de necesidades de rastreo web y de datos. Gracias a sus detalladas guías de instalación y uso, los usuarios pueden empezar a utilizarlo fácilmente y aprovechar al máximo las potentes funciones de la herramienta.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...