Aprendizagem pessoal com IA
e orientação prática

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

Introdução geral

O ScrapeGraphAI é uma biblioteca inovadora de rastreamento da Web em Python que combina de forma inteligente a Modelagem de Linguagem Grande (LLM) e a Lógica Gráfica Direta para criar pipelines de rastreamento para sites e documentos locais. A singularidade dessa ferramenta está em seu equilíbrio perfeito entre simplicidade e potência: o usuário simplesmente descreve as informações que deseja extrair, e o ScrapeGraphAI automatiza toda a complexidade do processo de rastreamento. O projeto suporta o processamento de documentos em uma ampla variedade de formatos, incluindo XML, HTML, JSON e Markdown. Ao fornecer SDKs para Python e Node.js, ele permite que os desenvolvedores integrem facilmente a funcionalidade de rastreamento da Web em seus projetos. O ScrapeGraphAI é mais do que uma simples ferramenta de rastreamento da Web, ele também oferece uma funcionalidade avançada, como rastreamento paralelo de várias páginas, geração de discurso, geração automática de scripts Python e outros recursos avançados.

Herói do ScrapeGraphAI


 

A lógica de gráfico é um conceito técnico central no ScrapeGraphAI, que se refere a um método de processamento estruturado para extração de dados da Web. Especificamente:

  1. Representação da estrutura de dados:
  • Pense no conteúdo da Web como uma estrutura gráfica
  • O documento HTML é convertido em uma coleção de nós e bordas.
  • Cada elemento HTML é um nó, e as relações entre os elementos são representadas por bordas
  1. Fluxo de processamento:
  • Primeiro, crie a estrutura de árvore DOM da página
  • Analisar as relações hierárquicas e associativas entre os nós
  • Uso de IA (Big Language Modelling) para entender as necessidades do usuário
  • Encontrar o caminho ideal de extração de dados com base na estrutura do gráfico

 

Lista de funções

  • Rastreamento inteligente de uma única página: a extração de conteúdo pode ser feita apenas com um prompt de usuário e uma fonte de entrada
  • Multi-Page Parallel Crawl: suporta a extração de informações de várias páginas da Web ao mesmo tempo.
  • Rastreamento de resultados de mecanismos de pesquisa: pode extrair informações dos primeiros N resultados do mecanismo de pesquisa
  • Função de conversão de voz: pode converter conteúdo da Web em arquivos de áudio
  • Geração automática de scripts: scripts Python podem ser gerados para extração de conteúdo
  • Suporte a vários LLMs: compatível com OpenAI, Groq, Azure, Gemini e outras APIs e modelos nativos do Ollama
  • Processamento semântico avançado: suporte para ferramentas de processamento semântico, como o Graphviz
  • Gerenciamento de navegadores: integrado a uma variedade de ferramentas e serviços de gerenciamento de navegadores
  • Suporte à integração de API: fornece interface de API completa e suporte a SDK

 

Usando a Ajuda

1. etapas de instalação

  1. Instalação da fundação
pip install scrapegraphai
playwright install

Recomenda-se a instalação em um ambiente virtual para evitar conflitos de biblioteca.

  1. Instalação opcional de dependências
  • Instalar mais suporte ao modelo de idioma:
pip install scrapegraphai [modelos em outros idiomas]
  • Instalação de opções de processamento semântico:
pip install scrapegraphai[more-semantic-options]
  • Instale a opção de navegador:
pip install scrapegraphai[more-browser-options]

2. uso básico

Abaixo está um exemplo de uso do SmartScraperGraph (o pipeline de raspagem mais comumente usado):

importar json
from scrapegraphai.graphs import SmartScraperGraph
# Configurar o pipeline de raspagem
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY", "model": "openai/gptpt": {
"model": "openai/gpt-4o-mini",
}, }
"verbose": True, "headless": False
"headless": False, }
}
# Criando uma instância do SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Extraia-me todas as notícias do site",
source="https://www.wired.com",
config=graph_config
)
# Executar o pipeline
resultado = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

3. descrição do uso de funções avançadas

  1. rastreamento de várias páginas
  • Use o SmartScraperMultiGraph para extrair informações de várias páginas ao mesmo tempo.
  • Oferece suporte a chamadas LLM paralelas para aumentar a eficiência do processamento
  1. Rastreamento de resultados de pesquisa
  • Use o SearchGraph para extrair informações diretamente dos resultados dos mecanismos de pesquisa.
  • Suporta a configuração do número de resultados de extração
  1. transcrição fonética
  • Use o SpeechGraph para converter conteúdo da Web em arquivos de áudio.
  • Oferece suporte a várias opções de síntese de fala
  1. Geração automática de scripts
  • O ScriptCreatorGraph gera scripts Python para extração de conteúdo.
  • Suporte para geração de scripts de página única e de várias páginas
  1. Integração do LLM
  • Suporte a vários serviços LLM: OpenAI, Groq, Azure, Gemini
  • Suporte para modelos nativos do Ollama (requer que o Ollama seja instalado e que os modelos sejam baixados primeiro)

4. cuidados

  1. Certifique-se de que a chave da API esteja configurada corretamente antes do uso
  2. Recomenda-se a execução em um ambiente virtual para evitar conflitos de dependência
  3. Ao usar modelos locais, você precisa instalar e fazer download dos modelos correspondentes com antecedência.
  4. Cumprir os termos de uso e a política de rastreamento do site
  5. Preste atenção para controlar a frequência do rastreamento, evitando a pressão sobre o site de destino

5 Solução de problemas

  • Se você encontrar um conflito de dependência, é recomendável recriar o ambiente virtual
  • Verificação da configuração da chave quando a chamada à API falha
  • Verificar a conectividade da rede e a disponibilidade do site de destino quando houver falha no rastreamento de uma página

6. acesso à ajuda

  • Documentação oficial: https://scrapegraph-ai.readthedocs.io/
  • Documentação do Docusaurus: https://docs-oss.scrapegraphai.com/
  • Suporte à comunidade do Discord: https://discord.gg/uJN7TYcpNa
  • Rastreador de problemas do GitHub: https://github.com/ScrapeGraphAI/Scrapegraph-ai/issues

 

Artigo de referência:O ScrapeGraphAI abre uma nova era de raspagem inteligente de dados! Reinvente a extração de dados com IA! ScrapeGraphAI+LangChain+LangGraph cria a mais forte inteligência de IA para captura e redação de artigos! Facilite a criação de conteúdo!

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil