par_scrape: una herramienta de rastreo para la extracción inteligente de datos web

Introducción general

par_scrape es un rastreador web de código abierto basado en Python, lanzado en GitHub por el desarrollador Paul Robello, diseñado para ayudar a los usuarios a extraer datos de páginas web de forma inteligente. Integra dos potentes tecnologías de automatización de navegadores, Selenium y Playwright, y las combina con capacidades de procesamiento de IA para soportar el rastreo de datos desde simples páginas estáticas hasta complejos sitios web dinámicos. Ya se trate de extraer precios, títulos u otra información estructurada, par_scrape completa rápidamente la tarea especificando campos y emite los resultados como Markdown, JSON o CSV. Proyecto para desarrolladores, analistas de datos o usuarios que deseen automatizar la recopilación de información en la Web , fácil de instalar y de características flexibles , popular en la comunidad de código abierto .

par_scrape:智能提取网页数据的爬虫工具

 

Lista de funciones

  • Extracción inteligente de datosAnálisis de contenidos web mediante modelos de IA (como OpenAI o Anthropic) para extraer con precisión los campos especificados por el usuario.
  • Doble soporte de orugasEl sitio web es compatible con las tecnologías Selenium y Playwright, que pueden adaptarse a distintas arquitecturas de sitios web.
  • Múltiples formatos de salida: Los resultados de la captura pueden exportarse a Markdown, JSON, CSV o Excel para facilitar su posterior procesamiento.
  • Captura de campos personalizadosLos usuarios pueden especificar los campos que desean extraer, como el título, la descripción, el precio, etc., para satisfacer necesidades personalizadas.
  • captura paralelaSoporte de rastreo multihilo para mejorar la eficacia de la recopilación de datos a gran escala.
  • Mecanismo de espera: Proporciona una variedad de métodos de espera de carga de páginas (por ejemplo, pausa, espera de selector) para garantizar el éxito del rastreo de contenido dinámico.
  • Selección del modelo de IASoporte para múltiples proveedores de IA (por ejemplo, OpenAI, Anthropic, XAI) para una adaptación flexible a diferentes tareas.
  • Optimización de la cachéFunción de caché de sugerencias integrada para reducir el coste de las solicitudes repetidas y mejorar la eficacia.

 

Utilizar la ayuda

Proceso de instalación

Para utilizar par_scrape, primero debe completar los siguientes pasos de instalación para asegurarse de que su entorno está bien preparado. A continuación encontrará una guía de instalación detallada:

1. Preparación medioambiental

  • Versión PythonAsegúrese de que Python 3.11 o posterior está instalado en su sistema utilizando el comando python --version Compruébalo.
  • Herramientas Git: Se utiliza para clonar código de GitHub; si no está instalado, se puede acceder a él a través de la función sudo apt install git(Linux) o el sitio web oficial para descargar e instalar.
  • Herramientas UV: Se recomienda utilizar UV para gestionar las dependencias, el comando de instalación es:
    • Linux/Mac:curl -LsSf https://astral.sh/uv/install.sh | sh
    • Ventanas:powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

2. Clonación de proyectos

Clona el proyecto par_scrape localmente introduciendo el siguiente comando en el terminal:

git clone https://github.com/paulrobello/par_scrape.git  
cd par_scrape

3. Instalación de dependencias

Utilice UV para instalar las dependencias del proyecto:

uv sync

O instalar directamente desde PyPI:

uv tool install par_scrape  
# 或使用 pipx  
pipx install par_scrape

4. Instalación del dramaturgo (opcional)

Si elige Playwright como rastreador, deberá instalar y configurar su navegador adicionalmente:

uv tool install playwright  
playwright install chromium

5. Configurar la clave API

par_scrape soporta múltiples proveedores de AI, es necesario configurar la clave correspondiente en la variable de entorno. Edite ~/.par_scrape.env añada lo siguiente (seleccione lo que desee):

OPENAI_API_KEY=your_openai_key  
ANTHROPIC_API_KEY=your_anthropic_key  
XAI_API_KEY=your_xai_key

O establezca la variable de entorno antes de ejecutar el comando:

export OPENAI_API_KEY=your_openai_key

Utilización

Una vez completada la instalación puede ejecutar par_scrape desde la línea de comandos, aquí tiene el procedimiento detallado:

Ejemplo de uso básico

Supongamos que desea extraer el título, la descripción y el precio de la página de precios de OpenAI:

par_scrape --url "https://openai.com/api/pricing/" -f "Title" -f "Description" -f "Price" --model gpt-4o-mini --display-output md
  • --urlDirección de la página web de destino.
  • -fEspecifique el campo de extracción, que puede utilizarse varias veces.
  • --modelSeleccione el modelo de IA (por ejemplo, gpt-4o-mini).
  • --display-outputFormato de salida (md, json, csv, etc.).

Función destacada Operación

  1. Cambio de herramientas de rastreo
    Playwright se utiliza por defecto, si desea utilizar Selenium, puede añadir parámetros:

    par_scrape --url "https://example.com" -f "Title" --scraper selenium
    
  2. captura paralela
    Establezca el número máximo de peticiones paralelas para mejorar la eficiencia:

    par_scrape --url "https://example.com" -f "Data" --scrape-max-parallel 5
    
  3. Página dinámica en espera
    Para el contenido cargado dinámicamente, se pueden establecer tipos de espera y selectores:

    par_scrape --url "https://example.com" -f "Content" --wait-type selector --wait-selector ".dynamic-content"
    

    Los tipos de espera admitidos son noneypauseysleepyidleyselector responder cantando text.

  4. Ruta de salida personalizada
    Guarda los resultados en la carpeta especificada:

    par_scrape --url "https://example.com" -f "Title" --output-folder ./my_data
    

Detalles del proceso operativo

Por ejemplo, la página de precios del rastreo:

  1. fijación de objetivos: Vaya a https://openai.com/api/pricing/ y confirme que necesita extraer el "Modelo", "Pricing Input" y " Pricing Output".
  2. Ejecutar comando::
    par_scrape --url "https://openai.com/api/pricing/" -f "Model" -f "Pricing Input" -f "Pricing Output" --model gpt-4o-mini --display-output json
    
  3. Ver resultados: Una vez ejecutado el comando, el terminal muestra los datos en formato JSON o los guarda en el archivo de salida predeterminado.
  4. Parámetros de ajuste: Si los datos están incompletos, prueba a añadir --retries 5(número de reintentos) o ajustes --sleep-time 5(Tiempo de espera).

advertencia

  • Clave APIAsegúrese de que la clave es válida; de lo contrario, la función de extracción de IA no estará disponible.
  • Restricciones del sitio web: Algunos sitios pueden tener un mecanismo anti-crawl y se recomienda utilizar la opción --headless(modo sin cabeza) o para ajustar la frecuencia de agarre.
  • Uso de la cachéSi rastrea la misma página varias veces, puede activar la opción --prompt-cache Costes reducidos.

Con los pasos anteriores, los usuarios pueden iniciarse rápidamente con par_scrape y completar fácilmente las tareas de extracción de datos de páginas web.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...