ScrapeGraphAI: одно слово для веб-ползания, не нужно писать правила для интеллектуальных инструментов извлечения веб-контента
Общее введение
ScrapeGraphAI - это инновационная библиотека для веб-краулинга на Python, в которой умело сочетаются моделирование большого языка (LLM) и прямая графовая логика для создания конвейеров краулинга для веб-сайтов и локальных документов. Уникальность этого инструмента заключается в идеальном балансе простоты и мощности: пользователь просто описывает информацию, которую он/она хочет извлечь, а ScrapeGraphAI автоматизирует все сложности процесса краулинга. Проект поддерживает обработку документов в широком диапазоне форматов, включая XML, HTML, JSON и Markdown. Предоставляя SDK для Python и Node.js, он позволяет разработчикам легко интегрировать функциональность веб-краулинга в свои проекты. ScrapeGraphAI - это не просто простой инструмент для веб-краулинга, он также предоставляет богатые функциональные возможности, такие как параллельный краулинг нескольких страниц, генерация речи, автоматическая генерация скриптов Python и другие расширенные возможности.

Графовая логика - это основная техническая концепция ScrapeGraphAI, которая относится к структурированному методу обработки для извлечения веб-данных. В частности:
- Представление структуры данных:
- Воспринимайте веб-контент как графическую структуру
- HTML-документ преобразуется в набор узлов и ребер.
- Каждый элемент HTML - это узел, а связи между элементами представлены ребрами
- Поток обработки:
- Сначала постройте древовидную структуру DOM страницы
- Анализ иерархических и ассоциативных связей между узлами
- Использование ИИ (большого языкового моделирования) для понимания потребностей пользователей
- Поиск оптимального пути извлечения данных на основе структуры графа
Список функций
- Интеллектуальный просмотр одной страницы: извлечение содержимого может осуществляться только с помощью запроса пользователя и источника входных данных
- Параллельный просмотр нескольких страниц: поддержка одновременного извлечения информации с нескольких веб-страниц.
- Просмотр результатов поисковых систем: позволяет извлекать информацию из первых N результатов поисковой системы
- Функция преобразования голоса: можно конвертировать веб-контент в аудиофайлы
- Автоматическая генерация сценариев: для извлечения содержимого можно создавать сценарии на языке Python
- Поддержка множества LLM: совместимость с OpenAI, Groq, Azure, Gemini и другими API, а также с собственными моделями Ollama.
- Расширенная семантическая обработка: поддержка инструментов семантической обработки, таких как Graphviz
- Управление браузерами: интеграция с различными инструментами и службами управления браузерами
- Поддержка интеграции API: предоставление полного интерфейса API и поддержка SDK
Использование помощи
1. Этапы установки
- Установка фундамента
pip install scrapegraphai
playwright install
Рекомендуется устанавливать в виртуальной среде, чтобы избежать конфликтов библиотек.
- Дополнительная установка зависимостей
- Установите дополнительную поддержку языковых моделей:
pip install scrapegraphai[other-language-models]
- Установка вариантов семантической обработки:
pip install scrapegraphai[more-semantic-options]
- Установите опцию браузера:
pip install scrapegraphai[more-browser-options]
2. Основное использование
Ниже приведен пример использования SmartScraperGraph (наиболее часто используемый конвейер скрапинга):
import json
from scrapegraphai.graphs import SmartScraperGraph
# 配置抓取管道
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_APIKEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# 创建SmartScraperGraph实例
smart_scraper_graph = SmartScraperGraph(
prompt="Extract me all the news from the website",
source="https://www.wired.com",
config=graph_config
)
# 运行管道
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))
3. Описание использования расширенных функций
- многостраничный поиск
- Используйте SmartScraperMultiGraph для одновременного извлечения информации с нескольких страниц.
- Поддержка параллельных вызовов LLM для повышения эффективности обработки
- Поиск результатов
- Используйте SearchGraph для извлечения информации непосредственно из результатов поисковых систем.
- Поддержка настройки количества результатов извлечения
- фонетическая транскрипция
- Используйте SpeechGraph для преобразования веб-контента в аудиофайлы.
- Поддержка нескольких вариантов синтеза речи
- Автоматическая генерация сценариев
- ScriptCreatorGraph генерирует скрипты Python для извлечения содержимого.
- Поддержка генерации одностраничных и многостраничных сценариев
- Интеграция LLM
- Поддержка нескольких сервисов LLM: OpenAI, Groq, Azure, Gemini
- Поддержка собственных моделей Ollama (для этого необходимо установить Ollama и загрузить модели)
4. Предостережения
- Перед использованием убедитесь, что ключ API настроен правильно
- Рекомендуется запускать в виртуальной среде, чтобы избежать конфликтов зависимостей
- При использовании локальных моделей необходимо заранее установить и загрузить соответствующие модели.
- Соблюдайте условия использования сайта и политику ползания
- Уделяйте внимание контролю частоты поползновений, избегая давления на целевой сайт
5. Устранение неполадок
- Если вы столкнулись с конфликтом зависимостей, рекомендуется пересоздать виртуальную среду
- Проверка конфигурации ключа при неудачном вызове API
- Проверка сетевого подключения и доступности целевого сайта при сбоях в обзоре страниц
6. доступ к помощи
- Официальная документация: https://scrapegraph-ai.readthedocs.io/
- Документация по докузавру: https://docs-oss.scrapegraphai.com/
- Поддержка сообщества Discord: https://discord.gg/uJN7TYcpNa
- Трекер проблем на GitHub: https://github.com/ScrapeGraphAI/Scrapegraph-ai/issues
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...