Introdução geral
O ScrapeGraphAI é uma biblioteca inovadora de rastreamento da Web em Python que combina de forma inteligente a Modelagem de Linguagem Grande (LLM) e a Lógica Gráfica Direta para criar pipelines de rastreamento para sites e documentos locais. A singularidade dessa ferramenta está em seu equilíbrio perfeito entre simplicidade e potência: o usuário simplesmente descreve as informações que deseja extrair, e o ScrapeGraphAI automatiza toda a complexidade do processo de rastreamento. O projeto suporta o processamento de documentos em uma ampla variedade de formatos, incluindo XML, HTML, JSON e Markdown. Ao fornecer SDKs para Python e Node.js, ele permite que os desenvolvedores integrem facilmente a funcionalidade de rastreamento da Web em seus projetos. O ScrapeGraphAI é mais do que uma simples ferramenta de rastreamento da Web, ele também oferece uma funcionalidade avançada, como rastreamento paralelo de várias páginas, geração de discurso, geração automática de scripts Python e outros recursos avançados.
A lógica de gráfico é um conceito técnico central no ScrapeGraphAI, que se refere a um método de processamento estruturado para extração de dados da Web. Especificamente:
- Representação da estrutura de dados:
- Pense no conteúdo da Web como uma estrutura gráfica
- O documento HTML é convertido em uma coleção de nós e bordas.
- Cada elemento HTML é um nó, e as relações entre os elementos são representadas por bordas
- Fluxo de processamento:
- Primeiro, crie a estrutura de árvore DOM da página
- Analisar as relações hierárquicas e associativas entre os nós
- Uso de IA (Big Language Modelling) para entender as necessidades do usuário
- Encontrar o caminho ideal de extração de dados com base na estrutura do gráfico
Lista de funções
- Rastreamento inteligente de uma única página: a extração de conteúdo pode ser feita apenas com um prompt de usuário e uma fonte de entrada
- Multi-Page Parallel Crawl: suporta a extração de informações de várias páginas da Web ao mesmo tempo.
- Rastreamento de resultados de mecanismos de pesquisa: pode extrair informações dos primeiros N resultados do mecanismo de pesquisa
- Função de conversão de voz: pode converter conteúdo da Web em arquivos de áudio
- Geração automática de scripts: scripts Python podem ser gerados para extração de conteúdo
- Suporte a vários LLMs: compatível com OpenAI, Groq, Azure, Gemini e outras APIs e modelos nativos do Ollama
- Processamento semântico avançado: suporte para ferramentas de processamento semântico, como o Graphviz
- Gerenciamento de navegadores: integrado a uma variedade de ferramentas e serviços de gerenciamento de navegadores
- Suporte à integração de API: fornece interface de API completa e suporte a SDK
Usando a Ajuda
1. etapas de instalação
- Instalação da fundação
pip install scrapegraphai
playwright install
Recomenda-se a instalação em um ambiente virtual para evitar conflitos de biblioteca.
- Instalação opcional de dependências
- Instalar mais suporte ao modelo de idioma:
pip install scrapegraphai [modelos em outros idiomas]
- Instalação de opções de processamento semântico:
pip install scrapegraphai[more-semantic-options]
- Instale a opção de navegador:
pip install scrapegraphai[more-browser-options]
2. uso básico
Abaixo está um exemplo de uso do SmartScraperGraph (o pipeline de raspagem mais comumente usado):
importar json
from scrapegraphai.graphs import SmartScraperGraph
# Configurar o pipeline de raspagem
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY", "model": "openai/gptpt": {
"model": "openai/gpt-4o-mini",
}, }
"verbose": True, "headless": False
"headless": False, }
}
# Criando uma instância do SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Extraia-me todas as notícias do site",
source="https://www.wired.com",
config=graph_config
)
# Executar o pipeline
resultado = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
3. descrição do uso de funções avançadas
- rastreamento de várias páginas
- Use o SmartScraperMultiGraph para extrair informações de várias páginas ao mesmo tempo.
- Oferece suporte a chamadas LLM paralelas para aumentar a eficiência do processamento
- Rastreamento de resultados de pesquisa
- Use o SearchGraph para extrair informações diretamente dos resultados dos mecanismos de pesquisa.
- Suporta a configuração do número de resultados de extração
- transcrição fonética
- Use o SpeechGraph para converter conteúdo da Web em arquivos de áudio.
- Oferece suporte a várias opções de síntese de fala
- Geração automática de scripts
- O ScriptCreatorGraph gera scripts Python para extração de conteúdo.
- Suporte para geração de scripts de página única e de várias páginas
- Integração do LLM
- Suporte a vários serviços LLM: OpenAI, Groq, Azure, Gemini
- Suporte para modelos nativos do Ollama (requer que o Ollama seja instalado e que os modelos sejam baixados primeiro)
4. cuidados
- Certifique-se de que a chave da API esteja configurada corretamente antes do uso
- Recomenda-se a execução em um ambiente virtual para evitar conflitos de dependência
- Ao usar modelos locais, você precisa instalar e fazer download dos modelos correspondentes com antecedência.
- Cumprir os termos de uso e a política de rastreamento do site
- Preste atenção para controlar a frequência do rastreamento, evitando a pressão sobre o site de destino
5 Solução de problemas
- Se você encontrar um conflito de dependência, é recomendável recriar o ambiente virtual
- Verificação da configuração da chave quando a chamada à API falha
- Verificar a conectividade da rede e a disponibilidade do site de destino quando houver falha no rastreamento de uma página
6. acesso à ajuda
- Documentação oficial: https://scrapegraph-ai.readthedocs.io/
- Documentação do Docusaurus: https://docs-oss.scrapegraphai.com/
- Suporte à comunidade do Discord: https://discord.gg/uJN7TYcpNa
- Rastreador de problemas do GitHub: https://github.com/ScrapeGraphAI/Scrapegraph-ai/issues