AI个人学习
和实操指南

Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

综合介绍

Crawl4AI 是一个开源的异步网页爬虫工具,专为大型语言模型(LLMs)和人工智能(AI)应用设计。它简化了网络爬虫和数据提取流程,支持高效的网页爬取,并提供对 LLM 友好的输出格式,如 JSON、清理过的 HTML 和 Markdown。Crawl4AI 支持同时爬取多个 URL,完全免费且开源,适合各种数据抓取需求。

官方帮助文档


在线体验

 

功能列表

  • 异步架构:高效处理多个网页,快速抓取数据
  • 多种输出格式:支持 JSON、HTML、Markdown
  • 多 URL 爬取:同时爬取多个网页
  • 媒体标签提取:提取图片、音频和视频标签
  • 链接提取:提取所有外部和内部链接
  • 元数据提取:从页面中提取元数据
  • 自定义钩子:支持身份验证、请求头和页面修改
  • 用户代理定制:自定义用户代理
  • 页面截图:抓取页面截图
  • 执行自定义 JavaScript:在爬取前执行多个自定义 JavaScript
  • 代理支持:增强隐私和访问
  • 会话管理:处理复杂的多页面爬取场景

 

使用帮助

安装流程

Crawl4AI 提供灵活的安装选项,适用于各种使用场景。您可以将其作为 Python 包安装或使用 Docker。

使用 pip 安装

  1. 基本安装
    pip install crawl4ai
    

    这将默认安装 Crawl4AI 的异步版本,使用 Playwright 进行网页爬取。

  2. 手动安装 Playwright(如果需要)
    playwright install
    

    或者

    python -m playwright install chromium
    

使用 Docker 安装

  1. 拉取 Docker 镜像
    docker pull unclecode/crawl4ai
    
  2. 运行 Docker 容器
    docker run -it unclecode/crawl4ai
    

使用指南

  1. 基本使用
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  2. 自定义设置
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler(
        user_agent="CustomUserAgent",
        headers={"Authorization": "Bearer token"},
        custom_js=["console.log('Hello, world!')"]
    )
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  3. 提取特定数据
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"], extract_media=True, extract_links=True)
    print(results)
    
  4. 会话管理
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    session = crawler.create_session()
    session_results = session.crawl(["https://example.com"])
    print(session_results)
    

Crawl4AI 提供了丰富的功能和灵活的配置选项,适用于各种网页爬取和数据抓取需求。通过详细的安装和使用指南,用户可以轻松上手并充分利用该工具的强大功能。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文