AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

pure.md:URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。

はじめに

pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策の制限を回避し、ウェブページのコアデータを抽出し、クリーンなMarkdownファイルを出力します。動的なウェブページ、PDFファイル、ソーシャルメディアコンテンツであろうと、pure.mdは効率的に処理することができます。このツールはCloudflareとAWSによって提供され、REST APIインターフェースを提供する。その最大の特徴は、操作が簡単で、コンテンツの抽出と整理にかかる時間を大幅に短縮できることで、特にリアルタイムデータや構造化された出力シナリオのニーズに適しています。

pure.md:网址前插入“pure.md/”即可提取干净的文本-1


 

機能一覧

  • Quick to Markdown: ウェブページやドキュメントのコンテンツをきれいなMarkdownフォーマットに抽出します。
  • クローラー対策検知の回避:実際のユーザーの行動をシミュレートし、制限されたウェブサイトにアクセスするためにIPアドレスをスピンする。
  • JavaScriptレンダリング:単一ページアプリケーション(SPA)の動的コンテンツの完全な解析。
  • PDFとファイル変換:PDF、Excel、その他のファイルをMarkdownに変換します。
  • 検索エンジンのクローリング:検索結果をクロールし、Markdownに統合します。
  • データ抽出: POSTリクエストでJSONまたはダイジェストを抽出し、自然言語コマンドをサポート。
  • ソーシャルメディアサポート:LinkedIn、Twitterなどのプラットフォームからデータを抽出(一部機能は開発中)。

 

ヘルプの使用

pure.mdは複雑なインストールを必要とせず、ウェブやAPIから直接使用することができます。以下は、すぐに使い始められるように、ステップバイステップの詳しい説明と機能の説明です。

基本的な使い方

  1. 公式ウェブサイトを見る
    ブラウザに入力 https://pure.md/メインページに表示されます。ソフトウェアをダウンロードする必要がなく、オンラインで直接操作できます。
  2. ターゲットリンクを入力
    リンクの前に https://pure.md/例えば、次のようになる。 https://example.com に変える https://pure.md/https://example.com.
  3. マークダウン
    投稿後、pure.mdは抽出されたコンテンツを返し、デフォルトではMarkdownフォーマットで出力されます。結果をコピーしたり、ファイルをダウンロードすることができます。

注目機能 操作手順

1.マークダウンへの素早い変換

  • 手続き::
    • 対象となるウェブページを入力します。 https://pure.md/https://wikipedia.org.
    • 送信をクリックすると、pure.mdは広告や余計な要素を削除し、タイトル、本文、メタデータを含むMarkdownファイルを生成する。
  • 効果::
    出力はわずか28K文字で、類似のツール(例えばr.jina.aiの143K文字)よりも簡潔で、AI処理に適している。参考までに:Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

2.クローラー対策検知を回避する

  • 手続き::
    • 制限されたウェブページへのリンクを入力する。 https://pure.md/https://science.org/article.
    • pure.mdは、データセンターエージェント、レジデントエージェント、または履歴データ(Common Crawl、Wayback Machine)を使用してコンテンツを取得します。
    • ログインが必要な場合は、リクエストヘッダにクッキーを追加してください ( https://pure.md/docs).
  • 効果::
    あなたが人間であることを確認してください」などの制限を回避して、コンテンツを抽出し、Markdownに変換することに成功。

3.JavaScriptレンダリングサポート

  • 手続き::
    • 動的なウェブページへのリンクを入力する。 https://pure.md/https://react-app.com.
    • pure.mdはバックグラウンドでDOMレンダリングを行い、完全なコンテンツを生成する。
    • 結果はMarkdownで返される。
  • 効果::
    単一ページのアプリケーションの動的データ(コメントやフォームなど)は、空のHTMLを取得することなく、全体が抽出されます。

4.PDFとドキュメントの変換

  • 手続き::
    • PDFリンクを入力してください。 https://pure.md/https://example.com/file.pdf.
    • 投稿後、pure.mdはファイルを解析し、Markdownに変換する。
    • エクセルファイルの場合、Markdown to tableフォーマットもサポートされています。
  • 効果::
    文書の内容は、階層的な見出しと段落を持つ明確なMarkdownに整理されている。

5.検索エンジンのクローリング

  • 手続き::
    • 検索語へのリンクを入力してください。 https://pure.md/https://google.com/search?q=AI.
    • pure.mdは検索結果をクロールし、Markdown文字列に統合する。
  • 効果::
    最新の出来事や知識は素早く照合され、リアルタイムでAIデータを更新するのに適している。

6.データ抽出(POSTリクエスト)

  • 手続き::
    • アクセスにはPOSTリクエストを使う:
      POST https://pure.md/https://reuters.com
      

      リクエストボディの例:

      {
      "prompt": "列出今天的前5条头条",
      "model": "meta/llama-3.1-8b",
      "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]}
      }
      
    • JSONまたはMarkdownの結果を返します。
  • 効果::
    自然言語の指示に基づく構造化データの抽出は、複雑なタスクに適している。

7.ソーシャルメディア対応(開発中)

  • 手続き::
    • LinkedInまたはTwitterのリンクを入力してください。 https://pure.md/https://twitter.com/user/tweet.
    • pure.mdはデータ・プロバイダーを通してコンテンツを抽出する。
  • 効果::
    投稿やプロフィールにMarkdownを出力することができます。

価格とアカウント

  • 在籍アクセス https://pure.md/login$1クレジットを無料で獲得。
  • 値段を決める::
    • スターター:毎分60リクエスト、$0.001/抽出、$0.005/検索。
    • 成長:$19/月、600リクエスト/分、$20無料クレジット付き。
    • ビジネス:$99/月、3000リクエスト/分、$100フリークレジット。
  • 払うStripe経由で処理され、いつでもキャンセルが可能です。

ほら

  • 無料版には厳しい制限があり、全機能をアンロックするにはサブスクリプションをお勧めします。
  • 大きなページやファイルは処理に少し時間がかかり、通常は5〜30秒かかる。
  • ソーシャルメディア機能はまだ完全には稼動していません。

以上の手順で、簡単にコンテンツを抽出し、シンプルで効率的なpure.mdを使ってMarkdownに変換することができる。

 

アプリケーションシナリオ

  1. AIデータ取得
    AI開発者はモデルを訓練するためにウェブデータを必要とします。pure.mdは素早く抽出し、Markdownに変換するため、前処理を減らすことができます。
  2. 調査と研究
    生徒は、PDFやウェブページをMarkdownに変換し、メモや情報の引用を簡単に整理することができます。
  3. ニュースモニタリング
    pure.mdは検索結果をクロールし、情報を最新の状態に保つためにMarkdownを出力する。

 

品質保証

  1. 登録にクレジットカードが必要ですか?
    必要ありません。サインアップして、$1無料クレジットを獲得してください。
  2. どのようなファイル形式に対応していますか?
    現在、HTML、PDF、Excelをサポートし、画像はAIを介して説明文に変換することができます。
  3. ログインしたコンテンツにアクセスできますか?
    しかし、クッキーを提供する必要があります。
無断転載を禁じます:チーフAIシェアリングサークル " pure.md:URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。
ja日本語