Crawlee: Creación de rastreadores web fiables y herramientas de automatización de navegadores con Node.js
Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 11.1K 00
Introducción general
Crawlee es un crawler web de código abierto y una librería de automatización de navegadores desarrollada por Apify , diseñada para el entorno Node.js. Es compatible con JavaScript y TypeScript, y funciona con herramientas como Puppeteer, Playwright, Cheerio, JSDOM y otras para proporcionar potentes funciones de rastreo y automatización de datos.Crawlee permite a los usuarios crear rastreadores fiables que extraen los datos necesarios para AI, LLM, RAG o GPT, y descargar HTML, PDF, JPG, PNG, etc. Diseñado para que los rastreadores se parezcan más a las operaciones humanas, es capaz de eludir los modernos mecanismos anti rastreadores, admite la rotación de agentes y la gestión de sesiones, y es adecuado para una gran variedad de complejas tareas de rastreo web.
Crawlee para Python está abierto a los primeros usuarios.

Lista de funciones
- Interfaz única para rastreo HTTP y headless browser
- Colas de rastreo de URL persistentes (breadth-first y depth-first)
- Almacenamiento de datos y archivos conectable
- Escala automáticamente en función de los recursos del sistema
- Rotación de agentes y gestión de sesiones integradas
- Ciclo de vida personalizable con ganchos
- Herramienta CLI para el arranque de proyectos
- Enrutamiento configurable, gestión de errores y mecanismos de reintento
- Suministro de archivos Docker para el despliegue
- Escrito en TypeScript con soporte genérico
- Compatibilidad con HTTP2 y generación automática de cabeceras de solicitud similares a las del navegador
- Analizador HTML rápido integrado (Cheerio y JSDOM)
- Soporte de rastreo de API JSON
- Renderizado JavaScript y soporte para capturas de pantalla
- Compatibilidad con los modos Headless y Headed
- Generación automática de huellas dactilares de estilo humano
- Interfaz unificada mediante Playwright y Puppeteer
- Compatible con Chrome, Firefox, Webkit, etc.
Utilizar la ayuda
montaje
Crawlee requiere Node.js 16 o superior. Puedes instalar y crear rápidamente un crawler de muestra con el siguiente comando:
npx crawlee create my-crawler
cd my-crawler
npm start
Si prefiere instalar manualmente, puede utilizar el siguiente comando:
npm install crawlee playwright
A continuación, impórtalo y utilízalo en tu proyecto:
import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);
Función Flujo de operaciones
- Creación de un proyecto de rastreoCrea rápidamente un nuevo proyecto de crawler utilizando la CLI de Crawlee, que instala todas las dependencias necesarias y añade código de ejemplo.
- Configuración del rastreadorConfigure en su proyecto la lógica de procesamiento de solicitudes del rastreador, la ubicación de almacenamiento de datos, la configuración del proxy, etc.
- Ejecutar el rastreadorEjecuta el crawler desde la línea de comandos y Crawlee procesará automáticamente la solicitud, obtendrá los datos y almacenará los resultados.
- almacenamiento de datosCrawlee almacena los datos por defecto en el directorio de trabajo actual en la carpeta
./storage
este directorio puede anularse mediante un archivo de configuración. - Funciones ampliadasAñada ganchos personalizados, mecanismos de gestión de errores y políticas de reintento según sea necesario para garantizar la estabilidad y fiabilidad del rastreador.
Gestión de proxy y sesiones
Crawlee integra la rotación de proxy y la gestión de sesiones para garantizar que el crawler no sea bloqueado por el sitio web de destino durante el proceso de rastreo. La lista de proxies y los parámetros de sesión pueden establecerse mediante un archivo de configuración para la rotación y gestión automáticas.
despliegues
Crawlee proporciona archivos Docker para facilitar el despliegue de rastreadores en la nube o en otros entornos. Los contenedores Docker se pueden construir y ejecutar con los siguientes comandos:
docker build -t my-crawler .
docker run my-crawler
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...