크롤리: Node.js로 안정적인 웹 크롤러 및 브라우저 자동화 도구 구축하기

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
2.3K 00

일반 소개

Crawlee는 Apify에서 개발한 오픈 소스 웹 크롤러 및 브라우저 자동화 라이브러리로, Node.js 환경을 위해 설계되었습니다. 자바스크립트와 타입스크립트를 지원하며 Puppeteer, Playwright, Cheerio, JSDOM 등의 도구와 함께 작동하여 강력한 데이터 크롤링 및 자동화 기능을 제공합니다.Crawlee를 사용하면 AI, LLM, RAG 또는 GPT에 필요한 데이터를 추출하는 안정적인 크롤러를 구축하여 HTML, PDF, JPG, PNG 등을 다운로드할 수 있습니다. 크롤러가 사람의 작업처럼 보이도록 설계되어 최신 안티 크롤러 메커니즘을 우회할 수 있고, 에이전트 로테이션 및 세션 관리를 지원하며, 다양하고 복잡한 웹 크롤링 작업에 적합합니다.

파이썬용 크롤리는 얼리 어답터에게 공개됩니다!

Crawlee:使用Node.js构建可靠的网络爬虫和浏览器自动化工具

 

기능 목록

  • HTTP 및 헤드리스 브라우저 크롤링을 위한 단일 인터페이스
  • 영구 URL 크롤링 대기열(폭 우선 및 깊이 우선)
  • 플러그형 데이터 및 파일 스토리지
  • 시스템 리소스에 따라 자동으로 확장
  • 통합 상담원 로테이션 및 세션 관리
  • 후크를 사용하여 라이프사이클을 사용자 지정할 수 있습니다.
  • 프로젝트 부트스트랩을 위한 CLI 도구
  • 구성 가능한 라우팅, 오류 처리 및 재시도 메커니즘
  • 배포를 위한 도커파일 제공
  • 일반 지원과 함께 타입스크립트로 작성
  • HTTP2 지원 및 브라우저 스타일 요청 헤더 자동 생성
  • 통합 고속 HTML 파서(Cheerio 및 JSDOM)
  • JSON API 크롤링 지원
  • 자바스크립트 렌더링 및 스크린샷 지원
  • 헤드리스 및 헤딩 모드 지원
  • 인간형 지문 자동 생성
  • 플레이라이터와 퍼펫티어를 사용한 통합 인터페이스
  • 크롬, 파이어폭스, 웹킷 등을 지원합니다.

 

도움말 사용

마운팅

크롤리를 사용하려면 Node.js 16 이상이 필요합니다. 다음 명령을 사용하여 샘플 크롤러를 빠르게 설치하고 만들 수 있습니다:

npx crawlee create my-crawler
cd my-crawler
npm start

수동으로 설치하려면 다음 명령을 사용할 수 있습니다:

npm install crawlee playwright

그런 다음 프로젝트에서 가져와서 사용하세요:

import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);

기능 작동 흐름

  1. 크롤러 프로젝트 만들기필요한 모든 종속성을 설치하고 샘플 코드를 추가하는 Crawlee CLI를 사용하여 새 크롤러 프로젝트를 빠르게 생성할 수 있습니다.
  2. 크롤러 구성프로젝트에서 크롤러의 요청 처리 로직, 데이터 저장 위치, 프록시 설정 등을 구성합니다.
  3. 크롤러 실행명령줄에서 크롤러를 실행하면 크롤리가 자동으로 요청을 처리하고 데이터를 가져와 결과를 저장합니다.
  4. 데이터 스토리지크롤리는 기본적으로 데이터를 현재 작업 디렉터리의 ./storage 폴더에 있는 경우 이 디렉터리는 구성 파일로 재정의할 수 있습니다.
  5. 확장된 기능크롤러의 안정성과 신뢰성을 보장하기 위해 필요에 따라 사용자 정의 후크, 오류 처리 메커니즘 및 재시도 정책을 추가합니다.

프록시 및 세션 관리

크롤리는 프록시 로테이션과 세션 관리를 통합하여 크롤링 프로세스 중에 대상 웹사이트에 의해 크롤러가 차단되지 않도록 보장합니다. 자동 로테이션 및 관리를 위해 구성 파일을 통해 프록시 목록 및 세션 매개변수를 설정할 수 있습니다.

배포

Crawlee는 크롤러를 클라우드나 다른 환경에 쉽게 배포할 수 있도록 Docker파일을 제공합니다. 다음 명령을 사용하여 Docker 컨테이너를 빌드하고 실행할 수 있습니다:

docker build -t my-crawler .
docker run my-crawler
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...