ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

58.7K 00

Introducción general

ScrapeGraphAI es una innovadora biblioteca de rastreo web en Python que combina inteligentemente el modelado de grandes lenguajes (LLM) y la lógica gráfica directa para crear pipelines de rastreo de sitios web y documentos locales. La singularidad de esta herramienta reside en su perfecto equilibrio entre sencillez y potencia: el usuario simplemente describe la información que desea extraer, y ScrapeGraphAI automatiza toda la complejidad del proceso de rastreo. El proyecto permite procesar documentos en una amplia gama de formatos, como XML, HTML, JSON y Markdown. Al proporcionar SDKs para Python y Node.js, permite a los desarrolladores integrar fácilmente la funcionalidad de rastreo web en sus proyectos.ScrapeGraphAI es más que una simple herramienta de rastreo web, también proporciona una rica funcionalidad como el rastreo paralelo de múltiples páginas, la generación de discursos, la generación automática de scripts Python y otras características avanzadas.

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

La lógica de grafos es un concepto técnico central en ScrapeGraphAI, que se refiere a un método de procesamiento estructurado para la extracción de datos web. Específicamente:

Representación de estructuras de datos:

Piense en los contenidos web como una estructura gráfica
El documento HTML se convierte en una colección de nodos y aristas.
Cada elemento HTML es un nodo, y las relaciones entre elementos se representan mediante aristas

Flujo de procesamiento:

Primero construye la estructura de árbol DOM de la página
Analizar las relaciones jerárquicas y asociativas entre nodos
Utilizar la IA (Big Language Modelling) para comprender las necesidades de los usuarios
Encontrar la ruta óptima de extracción de datos basándose en la estructura del grafo

Lista de funciones

Rastreo inteligente de una sola página: la extracción de contenidos puede realizarse con sólo una pregunta al usuario y una fuente de entrada.
Rastreo paralelo multipágina: Permite extraer información de varias páginas web al mismo tiempo.
Rastreo de los resultados del motor de búsqueda: puede extraer información de los N primeros resultados del motor de búsqueda.
Función de conversión de voz: puede convertir contenidos web en archivos de audio
Generación automática de secuencias de comandos: se pueden generar secuencias de comandos Python para la extracción de contenidos.
Compatibilidad con múltiples LLM: compatible con OpenAI, Groq, Azure, Gemini y otras API y modelos nativos de Ollama.
Procesamiento semántico avanzado: compatibilidad con herramientas de procesamiento semántico como Graphviz.
Gestión de navegadores: integrada con diversas herramientas y servicios de gestión de navegadores.
Soporte de integración API: proporciona una interfaz API completa y soporte SDK

Utilizar la ayuda

1. Pasos de la instalación

Instalación de cimientos

pip install scrapegraphai
playwright install

Se recomienda instalar en un entorno virtual para evitar conflictos de librerías.

Instalación opcional de dependencias

Instale más modelos de idiomas:

pip install scrapegraphai[other-language-models]

Instalación de opciones de procesamiento semántico:

pip install scrapegraphai[more-semantic-options]

Instale la opción del navegador:

pip install scrapegraphai[more-browser-options]

2. Uso básico

A continuación se muestra un ejemplo de uso de SmartScraperGraph (el pipeline de scraping más utilizado):

import json
from scrapegraphai.graphs import SmartScraperGraph
# 配置抓取管道
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# 创建SmartScraperGraph实例
smart_scraper_graph = SmartScraperGraph(
prompt="Extract me all the news from the website",
source="https://www.wired.com",
config=graph_config
)
# 运行管道
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

3. Descripción del uso de las funciones avanzadas

rastreo de varias páginas

Utilice SmartScraperMultiGraph para extraer información de varias páginas al mismo tiempo.
Admite llamadas LLM paralelas para mejorar la eficacia del procesamiento.

Rastreo de resultados de búsqueda

Utilice SearchGraph para extraer información directamente de los resultados de los motores de búsqueda.
Permite establecer el número de resultados de extracción

transcripción fonética

Utiliza SpeechGraph para convertir contenidos web en archivos de audio.
Admite múltiples opciones de síntesis de voz

Generación automática de guiones

ScriptCreatorGraph genera scripts Python para la extracción de contenidos.
Generación de guiones de una o varias páginas

Integración LLM

Compatibilidad con múltiples servicios LLM: OpenAI, Groq, Azure, Gemini
Compatibilidad con modelos nativos de Ollama (requiere la instalación de Ollama y la descarga previa de los modelos).

4. Precauciones

Asegúrese de que la clave API está configurada correctamente antes de utilizarla.
Se recomienda ejecutar en un entorno virtual para evitar conflictos de dependencias.
Si utiliza modelos locales, deberá instalar y descargar previamente los modelos correspondientes.
Cumplir las condiciones de uso del sitio y la política de rastreo
Preste atención a controlar la frecuencia de rastreo, para evitar la presión sobre el sitio de destino

5. Solución de problemas

Si se encuentra con un conflicto de dependencias, se recomienda volver a crear el entorno virtual
Comprobación de la configuración de la clave cuando falla la llamada a la API
Comprobación de la conectividad de la red y de la disponibilidad del sitio de destino cuando falla el rastreo de una página