Crawlee: Creación de rastreadores web fiables y herramientas de automatización de navegadores con Node.js

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

36.3K 00

Introducción general

Crawlee es un crawler web de código abierto y una librería de automatización de navegadores desarrollada por Apify , diseñada para el entorno Node.js. Es compatible con JavaScript y TypeScript, y funciona con herramientas como Puppeteer, Playwright, Cheerio, JSDOM y otras para proporcionar potentes funciones de rastreo y automatización de datos.Crawlee permite a los usuarios crear rastreadores fiables que extraen los datos necesarios para AI, LLM, RAG o GPT, y descargar HTML, PDF, JPG, PNG, etc. Diseñado para que los rastreadores se parezcan más a las operaciones humanas, es capaz de eludir los modernos mecanismos anti rastreadores, admite la rotación de agentes y la gestión de sesiones, y es adecuado para una gran variedad de complejas tareas de rastreo web.

Crawlee para Python está abierto a los primeros usuarios.

Lista de funciones

Interfaz única para rastreo HTTP y headless browser
Colas de rastreo de URL persistentes (breadth-first y depth-first)
Almacenamiento de datos y archivos conectable
Escala automáticamente en función de los recursos del sistema
Rotación de agentes y gestión de sesiones integradas
Ciclo de vida personalizable con ganchos
Herramienta CLI para el arranque de proyectos
Enrutamiento configurable, gestión de errores y mecanismos de reintento
Suministro de archivos Docker para el despliegue
Escrito en TypeScript con soporte genérico
Compatibilidad con HTTP2 y generación automática de cabeceras de solicitud similares a las del navegador
Analizador HTML rápido integrado (Cheerio y JSDOM)
Soporte de rastreo de API JSON
Renderizado JavaScript y soporte para capturas de pantalla
Compatibilidad con los modos Headless y Headed
Generación automática de huellas dactilares de estilo humano
Interfaz unificada mediante Playwright y Puppeteer
Compatible con Chrome, Firefox, Webkit, etc.

Utilizar la ayuda

montaje

Crawlee requiere Node.js 16 o superior. Puedes instalar y crear rápidamente un crawler de muestra con el siguiente comando:

npx crawlee create my-crawler
cd my-crawler
npm start

Si prefiere instalar manualmente, puede utilizar el siguiente comando:

npm install crawlee playwright

A continuación, impórtalo y utilízalo en tu proyecto:

import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);

Función Flujo de operaciones

Creación de un proyecto de rastreoCrea rápidamente un nuevo proyecto de crawler utilizando la CLI de Crawlee, que instala todas las dependencias necesarias y añade código de ejemplo.
Configuración del rastreadorConfigure en su proyecto la lógica de procesamiento de solicitudes del rastreador, la ubicación de almacenamiento de datos, la configuración del proxy, etc.
Ejecutar el rastreadorEjecuta el crawler desde la línea de comandos y Crawlee procesará automáticamente la solicitud, obtendrá los datos y almacenará los resultados.
almacenamiento de datosCrawlee almacena los datos por defecto en el directorio de trabajo actual en la carpeta ./storage este directorio puede anularse mediante un archivo de configuración.
Funciones ampliadasAñada ganchos personalizados, mecanismos de gestión de errores y políticas de reintento según sea necesario para garantizar la estabilidad y fiabilidad del rastreador.

Gestión de proxy y sesiones

Crawlee integra la rotación de proxy y la gestión de sesiones para garantizar que el crawler no sea bloqueado por el sitio web de destino durante el proceso de rastreo. La lista de proxies y los parámetros de sesión pueden establecerse mediante un archivo de configuración para la rotación y gestión automáticas.

despliegues

Crawlee proporciona archivos Docker para facilitar el despliegue de rastreadores en la nube o en otros entornos. Los contenedores Docker se pueden construir y ejecutar con los siguientes comandos:

docker build -t my-crawler .
docker run my-crawler

Últimos recursos sobre IA # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Repo Prompt: confiar en el contexto de la carpeta local para escribir, dialogar y optimizar el código

Últimos recursos sobre IA # AI Escritura # AI Aplicación de chat localizada # Programación de IA

hace 12mos

050.9K

CodeArts Doer - Asistente de Desarrollo Inteligente de Huawei Cloud

Últimos recursos sobre IA

hace 6mos

040.2K

MeetingMind：依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Herramienta AI de resumen de texto y audio/vídeo

Hace 1 año

041.4K

BytePlus - BytePlus lanza una plataforma inteligente de servicios en la nube para empresas

Últimos recursos sobre IA

hace 5mos

034.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Crawlee: Creación de rastreadores web fiables y herramientas de automatización de navegadores con Node.js

Introducción general

Lista de funciones

Utilizar la ayuda

montaje

Función Flujo de operaciones

Gestión de proxy y sesiones

despliegues

FliFlik: cliente de procesamiento de imágenes AI, HD de imágenes con un solo clic, ampliación, reducción de ruido y eliminación de marcas de agua.

Proyecto IDX: AI IDE para entornos de desarrollo múltiples integrados en la nube, editor de código AI gratuito basado en web de Google.

Puestos relacionados

Repo Prompt: confiar en el contexto de la carpeta local para escribir, dialogar y optimizar el código

CodeArts Doer - Asistente de Desarrollo Inteligente de Huawei Cloud

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

BytePlus - BytePlus lanza una plataforma inteligente de servicios en la nube para empresas

Sin comentarios

Últimas colecciones

Últimos artículos

Crawlee: Creación de rastreadores web fiables y herramientas de automatización de navegadores con Node.js

Introducción general

Lista de funciones

Utilizar la ayuda

montaje

Función Flujo de operaciones

Gestión de proxy y sesiones

despliegues

FliFlik: cliente de procesamiento de imágenes AI, HD de imágenes con un solo clic, ampliación, reducción de ruido y eliminación de marcas de agua.

Proyecto IDX: AI IDE para entornos de desarrollo múltiples integrados en la nube, editor de código AI gratuito basado en web de Google.

Puestos relacionados

Repo Prompt: confiar en el contexto de la carpeta local para escribir, dialogar y optimizar el código

CodeArts Doer - Asistente de Desarrollo Inteligente de Huawei Cloud

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

BytePlus - BytePlus lanza una plataforma inteligente de servicios en la nube para empresas

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos