일반 소개
pure.md는 웹 콘텐츠나 파일을 마크다운 형식으로 빠르게 변환하는 데 중점을 둔 AI 에이전트와 개발자를 위해 설계된 도구입니다. 프록시 서비스를 통해 크롤러 방지 제한을 우회하고 웹 페이지의 핵심 데이터를 추출하여 깔끔한 마크다운 파일을 출력합니다. 동적 웹 페이지, PDF 파일, 소셜 미디어 콘텐츠 등 어떤 것이든 pure.md는 효율적으로 처리할 수 있습니다. 이 도구는 Cloudflare와 AWS에 의해 구동되며 REST API 인터페이스를 제공합니다. 가장 큰 특징은 작동이 간단하고 콘텐츠 추출 및 구성 시간을 크게 단축할 수 있으며, 특히 실시간 데이터 또는 구조화된 출력 시나리오가 필요한 경우에 적합하다는 점입니다.

기능 목록
- 빠른 마크다운: 웹 페이지나 문서의 콘텐츠를 깔끔한 마크다운 형식으로 추출합니다.
- 안티 크롤러 탐지 우회: 실제 사용자 행동을 시뮬레이션하고 IP 주소를 회전하여 제한된 웹사이트에 액세스합니다.
- JavaScript 렌더링: 단일 페이지 애플리케이션(SPA)을 위한 동적 콘텐츠의 완전한 구문 분석.
- PDF 및 파일 변환: PDF, Excel 및 기타 파일을 마크다운으로 지원합니다.
- 검색 엔진 크롤링: 검색 결과를 크롤링하여 마크다운에 통합합니다.
- 데이터 추출: POST 요청을 통해 JSON 또는 다이제스트를 추출하고 자연어 명령을 지원합니다.
- 소셜 미디어 지원: LinkedIn, Twitter 등의 플랫폼에서 데이터를 추출합니다(일부 기능은 개발 중).
도움말 사용
pure.md는 복잡한 설치가 필요하지 않으며 웹 또는 API를 통해 바로 사용할 수 있습니다. 다음은 빠르게 시작할 수 있도록 단계별 지침과 기능에 대한 자세한 설명입니다.
기본 사용법
- 공식 웹사이트 방문하기
브라우저에 입력https://pure.md/
웹사이트의 메인 페이지가 메인 페이지에 표시됩니다. 소프트웨어를 다운로드할 필요 없이 온라인으로 직접 작동합니다. - 대상 링크 입력
링크 앞에https://pure.md/
예를 들면 다음과 같습니다.https://example.com
로 변경https://pure.md/https://example.com
. - 마크다운 받기
제출 후 pure.md는 추출된 콘텐츠를 반환하며, 기본적으로 마크다운 형식으로 출력됩니다. 결과를 복사하거나 파일을 다운로드할 수 있습니다.
주요 기능 작동 절차
1. 마크다운으로 빠른 전환
- 절차::
- 대상 웹 페이지를 입력합니다(예
https://pure.md/https://wikipedia.org
. - 제출을 클릭하면 pure.md가 광고와 불필요한 요소를 제거하고 제목, 본문 및 메타데이터가 포함된 마크다운 파일을 생성합니다.
- 대상 웹 페이지를 입력합니다(예
- 효과::
출력은 28K 문자에 불과하여 유사한 도구(예: r.jina.ai의 143K)보다 간결하고 AI 처리에 적합합니다. 참조:리더 API: 웹 콘텐츠 추출 도구, HTML을 마크다운으로 변환하는 도구
2. 안티 크롤러 탐지 우회하기
- 절차::
- 다음과 같이 제한된 웹 페이지에 대한 링크를 입력합니다.
https://pure.md/https://science.org/article
. - pure.md는 데이터 센터 에이전트, 레지던트 에이전트 또는 과거 데이터(일반 크롤링, 웨이백 머신)를 사용하여 콘텐츠를 가져옵니다.
- 로그인이 필요한 경우 요청 헤더에 쿠키를 추가하세요(
https://pure.md/docs
).
- 다음과 같이 제한된 웹 페이지에 대한 링크를 입력합니다.
- 효과::
콘텐츠를 성공적으로 추출하고 마크다운으로 변환하여 '본인 확인' 등의 제한을 우회합니다.
3. 자바스크립트 렌더링 지원
- 절차::
- 동적 웹 페이지에 대한 링크를 입력합니다(예
https://pure.md/https://react-app.com
. - pure.md는 백그라운드에서 DOM 렌더링을 수행하여 전체 콘텐츠를 생성합니다.
- 결과는 마크다운으로 반환됩니다.
- 동적 웹 페이지에 대한 링크를 입력합니다(예
- 효과::
단일 페이지 애플리케이션의 동적 데이터(예: 주석 또는 양식)는 빈 HTML만 추출되지 않고 전체가 추출됩니다.
4. PDF 및 문서 변환
- 절차::
- PDF 링크를 입력합니다(예
https://pure.md/https://example.com/file.pdf
. - 제출 후 pure.md는 파일을 파싱하여 마크다운으로 변환합니다.
- Excel 파일의 경우 표 형식의 마크다운도 지원됩니다.
- PDF 링크를 입력합니다(예
- 효과::
문서의 내용은 계층 구조의 제목과 단락을 사용하여 명확한 마크다운으로 정리됩니다.
5. 검색 엔진 크롤링
- 절차::
- 검색어에 대한 링크를 입력합니다(예
https://pure.md/https://google.com/search?q=AI
. - pure.md는 검색 결과를 크롤링하여 마크다운 문자열로 통합합니다.
- 검색어에 대한 링크를 입력합니다(예
- 효과::
최신 이벤트나 지식이 빠르게 수집되어 실시간으로 AI 데이터를 업데이트하는 데 적합합니다.
6. 데이터 추출(POST 요청)
- 절차::
- 액세스하려면 POST 요청을 사용합니다(예
POST https://pure.md/https://reuters.com
요청 본문 예시:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- JSON 또는 마크다운 결과를 반환합니다.
- 액세스하려면 POST 요청을 사용합니다(예
- 효과::
자연어 명령어를 기반으로 구조화된 데이터를 추출하는 것은 복잡한 작업에 적합합니다.
7. 소셜 미디어 지원(개발 중)
- 절차::
- 다음과 같은 LinkedIn 또는 Twitter 링크를 입력합니다.
https://pure.md/https://twitter.com/user/tweet
. - pure.md는 데이터 공급자를 통해 콘텐츠를 추출합니다.
- 다음과 같은 LinkedIn 또는 Twitter 링크를 입력합니다.
- 효과::
향후 더 많은 플랫폼을 지원하는 글 또는 프로필에 대한 마크다운을 출력합니다.
가격 및 계정
- 등록액세스
https://pure.md/login
$1 크레딧을 무료로 받을 수 있습니다. - 가격 고정::
- 스타터: 분당 요청 60건, $0.001/추출, $0.005/검색.
- 성장: $19/월, 분당 600회 요청, $20 무료 크레딧.
- 비즈니스: $99/월, 분당 3000건의 요청에 $100 무료 크레딧이 제공됩니다.
- 지불(돈)스트라이프를 통해 처리되며 언제든지 취소할 수 있습니다.
주의
- 무료 버전에는 엄격한 제한이 있으며 모든 기능을 사용하려면 구독을 권장합니다.
- 큰 페이지나 파일은 처리하는 데 보통 5~30초 정도 더 오래 걸립니다.
- 소셜 미디어 기능은 아직 완전히 활성화되지 않았으니 계속 지켜봐 주세요.
이 단계를 통해 간단하고 효율적인 pure.md를 사용하여 콘텐츠를 쉽게 추출하고 마크다운으로 변환할 수 있습니다.
애플리케이션 시나리오
- AI 데이터 수집
AI 개발자는 모델 학습을 위해 웹 데이터가 필요합니다. pure.md는 신속하게 추출하고 Markdown으로 변환하여 전처리를 줄여줍니다. - 연구 및 학습
학생들은 PDF나 웹 페이지를 마크다운으로 변환해 메모를 정리하거나 정보를 쉽게 인용할 수 있습니다. - 뉴스 모니터링
Enterprise는 실시간 뉴스를 크롤링합니다. pure.md는 검색 결과를 크롤링하고 마크다운을 출력하여 정보를 최신 상태로 유지합니다.
QA
- 등록하려면 신용 카드가 필요하신가요?
가입하고 $1 무료 크레딧을 받으세요. - 어떤 파일 형식이 지원되나요?
현재 HTML, PDF, Excel을 지원하며 AI를 통해 이미지를 설명으로 변환할 수 있습니다. - 로그인한 콘텐츠에 액세스할 수 있나요?
예, 하지만 쿠키를 제공해야 합니다(문서를 참조하세요).
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...