Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.
일반 소개
Maxun은 코드가 필요 없는 오픈 소스 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고 웹사이트 레이아웃의 변경에 적응할 수 있으며 다양한 데이터 추출 요구에 맞는 강력한 데이터 크롤링 기능을 제공합니다.


기능 목록
- 코드 데이터 추출 없음: 웹 페이지 데이터를 크롤링하기 위해 코드를 작성할 필요가 없습니다.
- 자동화된 데이터 크롤링: 로봇이 데이터 크롤링 작업을 자동화합니다.
- API 생성: 크롤링된 데이터를 API로 변환하기
- 스프레드시트 변환: 캡처한 데이터를 스프레드시트로 내보내기
- 페이징 및 스크롤 지원: 다중 페이지 데이터 및 긴 페이지 데이터 처리
- 웹사이트 레이아웃 변경에 적응하기: 페이지 레이아웃 변경에 자동으로 적응하기
- 로그인 및 2단계 인증 지원: 로그인이 필요한 사이트의 데이터 크롤링(곧 제공 예정)
- Google 스프레드시트와 통합: 데이터를 Google 스프레드시트로 바로 가져오기
- 프록시 지원: 외부 프록시를 사용하여 안티봇 보호 우회하기
도움말 사용
설치 프로세스
Docker Compose로 설치
- 프로젝트 웨어하우스 복제:
git clone https://github.com/getmaxun/maxun
- 프로젝트 카탈로그로 이동합니다:
cd maxun
- Docker Compose를 사용하여 서비스를 빌드하고 시작합니다:
docker-compose up -d --build
수동 설치
- 시스템에 Node.js, PostgreSQL, MinIO 및 Redis가 설치되어 있는지 확인합니다.
- 프로젝트 웨어하우스 복제:
git clone https://github.com/getmaxun/maxun
- 프로젝트 디렉토리로 이동하여 종속 요소를 설치합니다:
cd maxun
npm install
cd maxun-core
npm install
- 프런트엔드 및 백엔드 서비스를 시작하세요:
npm run start
- 프런트엔드 서비스는 http://localhost:5173/, 백엔드 서비스는 http://localhost:8080/ 에서 실행됩니다.
사용 가이드라인
- 로봇 만들기::
- 플랫폼에 로그인한 후 '봇 만들기' 버튼을 클릭합니다.
- 캡처할 데이터 유형(목록, 텍스트 또는 스크린샷)을 선택합니다.
- 대상 URL, 크롤링 빈도 등과 같은 크롤링 규칙을 구성합니다.
- 로봇을 저장하고 시작하면 자동으로 데이터 수집 작업을 수행합니다.
- 데이터 내보내기::
- 봇 미션이 완료되면 미션 세부 정보 페이지로 이동합니다.
- 내보내기 형식(API 또는 스프레드시트)을 선택합니다.
- '내보내기' 버튼을 클릭하여 데이터를 다운로드하거나 API 링크를 받습니다.
- 페이징 및 스크롤 처리::
- 봇을 만들 때 페이징 및 스크롤 옵션을 구성합니다.
- 로봇은 데이터 무결성을 보장하기 위해 다중 페이지 데이터와 긴 페이지 데이터를 자동으로 처리합니다.
- 웹사이트 레이아웃 변경에 적응하기::
- 이 플랫폼에는 페이지 레이아웃 변경에 자동으로 적응하는 지능형 알고리즘이 내장되어 있습니다.
- 크롤링 규칙을 수동으로 조정할 필요가 없으며 로봇이 변경 사항에 자동으로 적응합니다.
- Google 스프레드시트와 통합::
- 플랫폼 설정에서 Google 스프레드시트 통합을 구성합니다.
- 로봇이 수집한 데이터는 지정된 Google 스프레드시트 양식으로 자동 가져오기됩니다.
- 프록시 사용::
- 플랫폼 설정에서 외부 에이전트를 구성합니다.
- 로봇은 프록시를 통해 로봇 방지 보호 기능을 우회하여 파악 작업을 수행합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...