ScrapeGraphAI: одно слово для веб-ползания, не нужно писать правила для интеллектуальных инструментов извлечения веб-контента

Общее введение

ScrapeGraphAI - это инновационная библиотека для веб-краулинга на Python, в которой умело сочетаются моделирование большого языка (LLM) и прямая графовая логика для создания конвейеров краулинга для веб-сайтов и локальных документов. Уникальность этого инструмента заключается в идеальном балансе простоты и мощности: пользователь просто описывает информацию, которую он/она хочет извлечь, а ScrapeGraphAI автоматизирует все сложности процесса краулинга. Проект поддерживает обработку документов в широком диапазоне форматов, включая XML, HTML, JSON и Markdown. Предоставляя SDK для Python и Node.js, он позволяет разработчикам легко интегрировать функциональность веб-краулинга в свои проекты. ScrapeGraphAI - это не просто простой инструмент для веб-краулинга, он также предоставляет богатые функциональные возможности, такие как параллельный краулинг нескольких страниц, генерация речи, автоматическая генерация скриптов Python и другие расширенные возможности.

ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

 

Графовая логика - это основная техническая концепция ScrapeGraphAI, которая относится к структурированному методу обработки для извлечения веб-данных. В частности:

  1. Представление структуры данных:
  • Воспринимайте веб-контент как графическую структуру
  • HTML-документ преобразуется в набор узлов и ребер.
  • Каждый элемент HTML - это узел, а связи между элементами представлены ребрами
  1. Поток обработки:
  • Сначала постройте древовидную структуру DOM страницы
  • Анализ иерархических и ассоциативных связей между узлами
  • Использование ИИ (большого языкового моделирования) для понимания потребностей пользователей
  • Поиск оптимального пути извлечения данных на основе структуры графа

 

Список функций

  • Интеллектуальный просмотр одной страницы: извлечение содержимого может осуществляться только с помощью запроса пользователя и источника входных данных
  • Параллельный просмотр нескольких страниц: поддержка одновременного извлечения информации с нескольких веб-страниц.
  • Просмотр результатов поисковых систем: позволяет извлекать информацию из первых N результатов поисковой системы
  • Функция преобразования голоса: можно конвертировать веб-контент в аудиофайлы
  • Автоматическая генерация сценариев: для извлечения содержимого можно создавать сценарии на языке Python
  • Поддержка множества LLM: совместимость с OpenAI, Groq, Azure, Gemini и другими API, а также с собственными моделями Ollama.
  • Расширенная семантическая обработка: поддержка инструментов семантической обработки, таких как Graphviz
  • Управление браузерами: интеграция с различными инструментами и службами управления браузерами
  • Поддержка интеграции API: предоставление полного интерфейса API и поддержка SDK

 

Использование помощи

1. Этапы установки

  1. Установка фундамента
pip install scrapegraphai
playwright install

Рекомендуется устанавливать в виртуальной среде, чтобы избежать конфликтов библиотек.

  1. Дополнительная установка зависимостей
  • Установите дополнительную поддержку языковых моделей:
pip install scrapegraphai[other-language-models]
  • Установка вариантов семантической обработки:
pip install scrapegraphai[more-semantic-options]
  • Установите опцию браузера:
pip install scrapegraphai[more-browser-options]

2. Основное использование

Ниже приведен пример использования SmartScraperGraph (наиболее часто используемый конвейер скрапинга):

import json
from scrapegraphai.graphs import SmartScraperGraph
# 配置抓取管道
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# 创建SmartScraperGraph实例
smart_scraper_graph = SmartScraperGraph(
prompt="Extract me all the news from the website",
source="https://www.wired.com",
config=graph_config
)
# 运行管道
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

3. Описание использования расширенных функций

  1. многостраничный поиск
  • Используйте SmartScraperMultiGraph для одновременного извлечения информации с нескольких страниц.
  • Поддержка параллельных вызовов LLM для повышения эффективности обработки
  1. Поиск результатов
  • Используйте SearchGraph для извлечения информации непосредственно из результатов поисковых систем.
  • Поддержка настройки количества результатов извлечения
  1. фонетическая транскрипция
  • Используйте SpeechGraph для преобразования веб-контента в аудиофайлы.
  • Поддержка нескольких вариантов синтеза речи
  1. Автоматическая генерация сценариев
  • ScriptCreatorGraph генерирует скрипты Python для извлечения содержимого.
  • Поддержка генерации одностраничных и многостраничных сценариев
  1. Интеграция LLM
  • Поддержка нескольких сервисов LLM: OpenAI, Groq, Azure, Gemini
  • Поддержка собственных моделей Ollama (для этого необходимо установить Ollama и загрузить модели)

4. Предостережения

  1. Перед использованием убедитесь, что ключ API настроен правильно
  2. Рекомендуется запускать в виртуальной среде, чтобы избежать конфликтов зависимостей
  3. При использовании локальных моделей необходимо заранее установить и загрузить соответствующие модели.
  4. Соблюдайте условия использования сайта и политику ползания
  5. Уделяйте внимание контролю частоты поползновений, избегая давления на целевой сайт

5. Устранение неполадок

  • Если вы столкнулись с конфликтом зависимостей, рекомендуется пересоздать виртуальную среду
  • Проверка конфигурации ключа при неудачном вызове API
  • Проверка сетевого подключения и доступности целевого сайта при сбоях в обзоре страниц

6. доступ к помощи

  • Официальная документация: https://scrapegraph-ai.readthedocs.io/
  • Документация по докузавру: https://docs-oss.scrapegraphai.com/
  • Поддержка сообщества Discord: https://discord.gg/uJN7TYcpNa
  • Трекер проблем на GitHub: https://github.com/ScrapeGraphAI/Scrapegraph-ai/issues

 

Справочная статья:ScrapeGraphAI открывает новую эру интеллектуального соскабливания данных! Переосмыслите извлечение данных с помощью искусственного интеллекта! ScrapeGraphAI+LangChain+LangGraph создают сильнейший искусственный интеллект для захвата и написания статей! Сделайте создание контента проще!

© заявление об авторских правах

Похожие статьи

Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...