Crawlee: Creación de rastreadores web fiables y herramientas de automatización de navegadores con Node.js

Introducción general

Crawlee es un crawler web de código abierto y una librería de automatización de navegadores desarrollada por Apify , diseñada para el entorno Node.js. Es compatible con JavaScript y TypeScript, y funciona con herramientas como Puppeteer, Playwright, Cheerio, JSDOM y otras para proporcionar potentes funciones de rastreo y automatización de datos.Crawlee permite a los usuarios crear rastreadores fiables que extraen los datos necesarios para AI, LLM, RAG o GPT, y descargar HTML, PDF, JPG, PNG, etc. Diseñado para que los rastreadores se parezcan más a las operaciones humanas, es capaz de eludir los modernos mecanismos anti rastreadores, admite la rotación de agentes y la gestión de sesiones, y es adecuado para una gran variedad de complejas tareas de rastreo web.

Crawlee para Python está abierto a los primeros usuarios.

Crawlee:使用Node.js构建可靠的网络爬虫和浏览器自动化工具

 

Lista de funciones

  • Interfaz única para rastreo HTTP y headless browser
  • Colas de rastreo de URL persistentes (breadth-first y depth-first)
  • Almacenamiento de datos y archivos conectable
  • Escala automáticamente en función de los recursos del sistema
  • Rotación de agentes y gestión de sesiones integradas
  • Ciclo de vida personalizable con ganchos
  • Herramienta CLI para el arranque de proyectos
  • Enrutamiento configurable, gestión de errores y mecanismos de reintento
  • Suministro de archivos Docker para el despliegue
  • Escrito en TypeScript con soporte genérico
  • Compatibilidad con HTTP2 y generación automática de cabeceras de solicitud similares a las del navegador
  • Analizador HTML rápido integrado (Cheerio y JSDOM)
  • Soporte de rastreo de API JSON
  • Renderizado JavaScript y soporte para capturas de pantalla
  • Compatibilidad con los modos Headless y Headed
  • Generación automática de huellas dactilares de estilo humano
  • Interfaz unificada mediante Playwright y Puppeteer
  • Compatible con Chrome, Firefox, Webkit, etc.

 

Utilizar la ayuda

montaje

Crawlee requiere Node.js 16 o superior. Puedes instalar y crear rápidamente un crawler de muestra con el siguiente comando:

npx crawlee create my-crawler
cd my-crawler
npm start

Si prefiere instalar manualmente, puede utilizar el siguiente comando:

npm install crawlee playwright

A continuación, impórtalo y utilízalo en tu proyecto:

import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);

Función Flujo de operaciones

  1. Creación de un proyecto de rastreoCrea rápidamente un nuevo proyecto de crawler utilizando la CLI de Crawlee, que instala todas las dependencias necesarias y añade código de ejemplo.
  2. Configuración del rastreadorConfigure en su proyecto la lógica de procesamiento de solicitudes del rastreador, la ubicación de almacenamiento de datos, la configuración del proxy, etc.
  3. Ejecutar el rastreadorEjecuta el crawler desde la línea de comandos y Crawlee procesará automáticamente la solicitud, obtendrá los datos y almacenará los resultados.
  4. almacenamiento de datosCrawlee almacena los datos por defecto en el directorio de trabajo actual en la carpeta ./storage este directorio puede anularse mediante un archivo de configuración.
  5. Funciones ampliadasAñada ganchos personalizados, mecanismos de gestión de errores y políticas de reintento según sea necesario para garantizar la estabilidad y fiabilidad del rastreador.

Gestión de proxy y sesiones

Crawlee integra la rotación de proxy y la gestión de sesiones para garantizar que el crawler no sea bloqueado por el sitio web de destino durante el proceso de rastreo. La lista de proxies y los parámetros de sesión pueden establecerse mediante un archivo de configuración para la rotación y gestión automáticas.

despliegues

Crawlee proporciona archivos Docker para facilitar el despliegue de rastreadores en la nube o en otros entornos. Los contenedores Docker se pueden construir y ejecutar con los siguientes comandos:

docker build -t my-crawler .
docker run my-crawler
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...