はじめに
pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策の制限を回避し、ウェブページのコアデータを抽出し、クリーンなMarkdownファイルを出力します。動的なウェブページ、PDFファイル、ソーシャルメディアコンテンツであろうと、pure.mdは効率的に処理することができます。このツールはCloudflareとAWSによって提供され、REST APIインターフェースを提供する。その最大の特徴は、操作が簡単で、コンテンツの抽出と整理にかかる時間を大幅に短縮できることで、特にリアルタイムデータや構造化された出力シナリオのニーズに適しています。
機能一覧
- Quick to Markdown: ウェブページやドキュメントのコンテンツをきれいなMarkdownフォーマットに抽出します。
- クローラー対策検知の回避:実際のユーザーの行動をシミュレートし、制限されたウェブサイトにアクセスするためにIPアドレスをスピンする。
- JavaScriptレンダリング:単一ページアプリケーション(SPA)の動的コンテンツの完全な解析。
- PDFとファイル変換:PDF、Excel、その他のファイルをMarkdownに変換します。
- 検索エンジンのクローリング:検索結果をクロールし、Markdownに統合します。
- データ抽出: POSTリクエストでJSONまたはダイジェストを抽出し、自然言語コマンドをサポート。
- ソーシャルメディアサポート:LinkedIn、Twitterなどのプラットフォームからデータを抽出(一部機能は開発中)。
ヘルプの使用
pure.mdは複雑なインストールを必要とせず、ウェブやAPIから直接使用することができます。以下は、すぐに使い始められるように、ステップバイステップの詳しい説明と機能の説明です。
基本的な使い方
- 公式ウェブサイトを見る
ブラウザに入力https://pure.md/
メインページに表示されます。ソフトウェアをダウンロードする必要がなく、オンラインで直接操作できます。 - ターゲットリンクを入力
リンクの前にhttps://pure.md/
例えば、次のようになる。https://example.com
に変えるhttps://pure.md/https://example.com
. - マークダウン
投稿後、pure.mdは抽出されたコンテンツを返し、デフォルトではMarkdownフォーマットで出力されます。結果をコピーしたり、ファイルをダウンロードすることができます。
注目機能 操作手順
1.マークダウンへの素早い変換
- 手続き::
- 対象となるウェブページを入力します。
https://pure.md/https://wikipedia.org
. - 送信をクリックすると、pure.mdは広告や余計な要素を削除し、タイトル、本文、メタデータを含むMarkdownファイルを生成する。
- 対象となるウェブページを入力します。
- 効果::
出力はわずか28K文字で、類似のツール(例えばr.jina.aiの143K文字)よりも簡潔で、AI処理に適している。参考までに:Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換
2.クローラー対策検知を回避する
- 手続き::
- 制限されたウェブページへのリンクを入力する。
https://pure.md/https://science.org/article
. - pure.mdは、データセンターエージェント、レジデントエージェント、または履歴データ(Common Crawl、Wayback Machine)を使用してコンテンツを取得します。
- ログインが必要な場合は、リクエストヘッダにクッキーを追加してください (
https://pure.md/docs
).
- 制限されたウェブページへのリンクを入力する。
- 効果::
あなたが人間であることを確認してください」などの制限を回避して、コンテンツを抽出し、Markdownに変換することに成功。
3.JavaScriptレンダリングサポート
- 手続き::
- 動的なウェブページへのリンクを入力する。
https://pure.md/https://react-app.com
. - pure.mdはバックグラウンドでDOMレンダリングを行い、完全なコンテンツを生成する。
- 結果はMarkdownで返される。
- 動的なウェブページへのリンクを入力する。
- 効果::
単一ページのアプリケーションの動的データ(コメントやフォームなど)は、空のHTMLを取得することなく、全体が抽出されます。
4.PDFとドキュメントの変換
- 手続き::
- PDFリンクを入力してください。
https://pure.md/https://example.com/file.pdf
. - 投稿後、pure.mdはファイルを解析し、Markdownに変換する。
- エクセルファイルの場合、Markdown to tableフォーマットもサポートされています。
- PDFリンクを入力してください。
- 効果::
文書の内容は、階層的な見出しと段落を持つ明確なMarkdownに整理されている。
5.検索エンジンのクローリング
- 手続き::
- 検索語へのリンクを入力してください。
https://pure.md/https://google.com/search?q=AI
. - pure.mdは検索結果をクロールし、Markdown文字列に統合する。
- 検索語へのリンクを入力してください。
- 効果::
最新の出来事や知識は素早く照合され、リアルタイムでAIデータを更新するのに適している。
6.データ抽出(POSTリクエスト)
- 手続き::
- アクセスにはPOSTリクエストを使う:
POST https://pure.md/https://reuters.com
リクエストボディの例:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- JSONまたはMarkdownの結果を返します。
- アクセスにはPOSTリクエストを使う:
- 効果::
自然言語の指示に基づく構造化データの抽出は、複雑なタスクに適している。
7.ソーシャルメディア対応(開発中)
- 手続き::
- LinkedInまたはTwitterのリンクを入力してください。
https://pure.md/https://twitter.com/user/tweet
. - pure.mdはデータ・プロバイダーを通してコンテンツを抽出する。
- LinkedInまたはTwitterのリンクを入力してください。
- 効果::
投稿やプロフィールにMarkdownを出力することができます。
価格とアカウント
- 在籍アクセス
https://pure.md/login
$1クレジットを無料で獲得。 - 値段を決める::
- スターター:毎分60リクエスト、$0.001/抽出、$0.005/検索。
- 成長:$19/月、600リクエスト/分、$20無料クレジット付き。
- ビジネス:$99/月、3000リクエスト/分、$100フリークレジット。
- 払うStripe経由で処理され、いつでもキャンセルが可能です。
ほら
- 無料版には厳しい制限があり、全機能をアンロックするにはサブスクリプションをお勧めします。
- 大きなページやファイルは処理に少し時間がかかり、通常は5〜30秒かかる。
- ソーシャルメディア機能はまだ完全には稼動していません。
以上の手順で、簡単にコンテンツを抽出し、シンプルで効率的なpure.mdを使ってMarkdownに変換することができる。
アプリケーションシナリオ
- AIデータ取得
AI開発者はモデルを訓練するためにウェブデータを必要とします。pure.mdは素早く抽出し、Markdownに変換するため、前処理を減らすことができます。 - 調査と研究
生徒は、PDFやウェブページをMarkdownに変換し、メモや情報の引用を簡単に整理することができます。 - ニュースモニタリング
pure.mdは検索結果をクロールし、情報を最新の状態に保つためにMarkdownを出力する。
品質保証
- 登録にクレジットカードが必要ですか?
必要ありません。サインアップして、$1無料クレジットを獲得してください。 - どのようなファイル形式に対応していますか?
現在、HTML、PDF、Excelをサポートし、画像はAIを介して説明文に変換することができます。 - ログインしたコンテンツにアクセスできますか?
しかし、クッキーを提供する必要があります。