일반 소개
Crawlee는 Apify에서 개발한 오픈 소스 웹 크롤러 및 브라우저 자동화 라이브러리로, Node.js 환경을 위해 설계되었습니다. 자바스크립트와 타입스크립트를 지원하며 Puppeteer, Playwright, Cheerio, JSDOM 등의 도구와 함께 작동하여 강력한 데이터 크롤링 및 자동화 기능을 제공합니다.Crawlee를 사용하면 AI, LLM, RAG 또는 GPT에 필요한 데이터를 추출하는 안정적인 크롤러를 구축하여 HTML, PDF, JPG, PNG 등을 다운로드할 수 있습니다. 크롤러가 사람의 작업처럼 보이도록 설계되어 최신 안티 크롤러 메커니즘을 우회할 수 있고, 에이전트 로테이션 및 세션 관리를 지원하며, 다양하고 복잡한 웹 크롤링 작업에 적합합니다.
파이썬용 크롤리는 얼리 어답터에게 공개됩니다!

기능 목록
- HTTP 및 헤드리스 브라우저 크롤링을 위한 단일 인터페이스
- 영구 URL 크롤링 대기열(폭 우선 및 깊이 우선)
- 플러그형 데이터 및 파일 스토리지
- 시스템 리소스에 따라 자동으로 확장
- 통합 상담원 로테이션 및 세션 관리
- 후크를 사용하여 라이프사이클을 사용자 지정할 수 있습니다.
- 프로젝트 부트스트랩을 위한 CLI 도구
- 구성 가능한 라우팅, 오류 처리 및 재시도 메커니즘
- 배포를 위한 도커파일 제공
- 일반 지원과 함께 타입스크립트로 작성
- HTTP2 지원 및 브라우저 스타일 요청 헤더 자동 생성
- 통합 고속 HTML 파서(Cheerio 및 JSDOM)
- JSON API 크롤링 지원
- 자바스크립트 렌더링 및 스크린샷 지원
- 헤드리스 및 헤딩 모드 지원
- 인간형 지문 자동 생성
- 플레이라이터와 퍼펫티어를 사용한 통합 인터페이스
- 크롬, 파이어폭스, 웹킷 등을 지원합니다.
도움말 사용
마운팅
크롤리를 사용하려면 Node.js 16 이상이 필요합니다. 다음 명령을 사용하여 샘플 크롤러를 빠르게 설치하고 만들 수 있습니다:
npx crawlee create my-crawler
cd my-crawler
npm start
수동으로 설치하려면 다음 명령을 사용할 수 있습니다:
npm install crawlee playwright
그런 다음 프로젝트에서 가져와서 사용하세요:
import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);
기능 작동 흐름
- 크롤러 프로젝트 만들기필요한 모든 종속성을 설치하고 샘플 코드를 추가하는 Crawlee CLI를 사용하여 새 크롤러 프로젝트를 빠르게 생성할 수 있습니다.
- 크롤러 구성프로젝트에서 크롤러의 요청 처리 로직, 데이터 저장 위치, 프록시 설정 등을 구성합니다.
- 크롤러 실행명령줄에서 크롤러를 실행하면 크롤리가 자동으로 요청을 처리하고 데이터를 가져와 결과를 저장합니다.
- 데이터 스토리지크롤리는 기본적으로 데이터를 현재 작업 디렉터리의
./storage
폴더에 있는 경우 이 디렉터리는 구성 파일로 재정의할 수 있습니다. - 확장된 기능크롤러의 안정성과 신뢰성을 보장하기 위해 필요에 따라 사용자 정의 후크, 오류 처리 메커니즘 및 재시도 정책을 추가합니다.
프록시 및 세션 관리
크롤리는 프록시 로테이션과 세션 관리를 통합하여 크롤링 프로세스 중에 대상 웹사이트에 의해 크롤러가 차단되지 않도록 보장합니다. 자동 로테이션 및 관리를 위해 구성 파일을 통해 프록시 목록 및 세션 매개변수를 설정할 수 있습니다.
배포
Crawlee는 크롤러를 클라우드나 다른 환경에 쉽게 배포할 수 있도록 Docker파일을 제공합니다. 다음 명령을 사용하여 Docker 컨테이너를 빌드하고 실행할 수 있습니다:
docker build -t my-crawler .
docker run my-crawler
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...