Crawl4AI: LLM 없이 구조화된 데이터를 추출하는 오픈 소스 비동기 웹 크롤러 도구

최신 AI 리소스10개월 전 업데이트 AI 공유 서클
14.2K 00

일반 소개

Crawl4AI는 대규모 언어 모델(LLM) 및 인공 지능(AI) 애플리케이션을 위해 설계된 오픈 소스 비동기 웹 크롤러 도구입니다. 웹 크롤링 및 데이터 추출 프로세스를 간소화하고 효율적인 웹 크롤링을 지원하며 JSON, 정리된 HTML 및 Markdown과 같은 LLM 친화적인 출력 형식을 제공합니다.Crawl4AI는 다양한 데이터 크롤링 요구에 적합한 완전 무료 오픈 소스이며 동시에 여러 URL을 크롤링할 수 있도록 지원합니다.

공식 도움말 문서

온라인 경험

Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

 

기능 목록

  • 비동기식 아키텍처: 여러 웹 페이지의 효율적인 처리, 빠른 데이터 크롤링
  • 여러 출력 형식: JSON, HTML, 마크다운 지원
  • 멀티 URL 크롤링: 여러 웹 페이지를 동시에 크롤링합니다.
  • 미디어 태그 추출: 이미지, 오디오 및 비디오 태그 추출
  • 링크 추출: 모든 외부 및 내부 링크 추출
  • 메타데이터 추출: 페이지에서 메타데이터 추출하기
  • 사용자 정의 후크: 인증, 요청 헤더 및 페이지 수정 지원
  • 사용자 에이전트 사용자 지정: 사용자 에이전트 사용자 지정
  • 페이지 스크린샷: 크롤링 페이지의 스크린샷
  • 사용자 정의 JavaScript 실행: 크롤링하기 전에 여러 개의 사용자 정의 자바스크립트를 실행합니다.
  • 프록시 지원: 개인정보 보호 및 액세스 강화
  • 세션 관리: 복잡한 다중 페이지 크롤링 시나리오 처리하기

 

도움말 사용

설치 프로세스

Crawl4AI는 다양한 사용 시나리오에 맞는 유연한 설치 옵션을 제공합니다. Python 패키지로 설치하거나 Docker를 사용할 수 있습니다.

핍으로 설치

  1. 기본 설치
    pip install crawl4ai
    

    이렇게 하면 기본적으로 웹 크롤링에 Playwright를 사용하는 비동기 버전의 Crawl4AI가 설치됩니다.

  2. Playwright 수동 설치(필요한 경우)
    playwright install
    

    또는

    python -m playwright install chromium
    

Docker로 설치하기

  1. Docker 이미지 가져오기
    docker pull unclecode/crawl4ai
    
  2. 도커 컨테이너 실행
    docker run -it unclecode/crawl4ai
    

사용 가이드라인

  1. 기본 사용
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  2. 사용자 지정 설정
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler(
        user_agent="CustomUserAgent",
        headers={"Authorization": "Bearer token"},
        custom_js=["console.log('Hello, world!')"]
    )
    results = crawler.crawl(["https://example.com"])
    print(results)
    
  3. 특정 데이터 추출
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    results = crawler.crawl(["https://example.com"], extract_media=True, extract_links=True)
    print(results)
    
  4. 세션 관리
    from crawl4ai import AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    session = crawler.create_session()
    session_results = session.crawl(["https://example.com"])
    print(session_results)
    

Crawl4AI는 다양한 웹 크롤링 및 데이터 크롤링 요구사항에 맞는 풍부한 기능과 유연한 구성 옵션을 제공합니다. 자세한 설치 및 사용 가이드를 통해 사용자는 쉽게 시작하고 도구의 강력한 기능을 최대한 활용할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...