AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

はじめに

 

Jina AIのReaderプロジェクトは、オープンソースツール(リーダー・オープンソース・アドレス)があり、入力フォーマットに接頭辞https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)を付加することで、任意のURLを取ることができ、動的ストリーミング・モードや画像読み込みなどの機能をサポートしている。


ウェブページの核となるコンテンツを簡単に取り込み、LLMの処理に適したきれいなテキストに変換することができます。このツールはウェブページのテキストだけでなく、画像やPDFファイルも扱うことができ、LLMがより効率的にコンテンツを理解し処理できるように、必要なタグやフォーマットを自動的に追加します。このプロジェクトはNode v18とFirebase CLIで動作し、Apache 2.0ライセンスの下で利用可能です。

 

Reader API:网页内容提取工具,HTML转换为Markdown格式-1

 

 

機能一覧

  • ウェブコンテンツ抽出任意のURLをLLMに適したテキスト形式に変換します。
  • 画像認識ウェブページ内の画像の説明タグを自動的に生成します。
  • PDF閲覧任意のURLからPDFファイルを読み込み、LLMに適したテキストに変換します。
  • 検索機能"s.jina.ai "をクエリの前に付けることで、ウェブから最新の情報を取得し、LLMに適したフォーマットに変換します。
  • 高い同時実行性と信頼性多数の同時リクエストをサポートする高いアクセシビリティと信頼性を提供します。

 

 

ヘルプの使用

インストールと使用

Jina AI Readerはインストール不要で、ユーザーはURLに接頭辞 "r.jina.ai "を追加するだけです。例えば、URL "https://en.wikipedia.org/wiki/Artificial_intelligence "をLLMに適した入力フォーマットに変換するには、以下のURLを使用するだけです:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

同様に、ウェブ検索を実行し、LLMに適した結果を得るには、例えば、クエリの前に "s.jina.ai "を付ける:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

機能 操作の流れ

  1. ウェブコンテンツ抽出::
    • ブラウザのURLを "https://r.jina.ai/https://example.com "のような接頭語付きで入力してください。
    • Enterキーを押すと、Jina AI Readerは自動的にウェブページの内容を抽出し、LLMに適したテキスト形式に変換します。
    • 抽出されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
  2. 画像認識::
    • Jina AI Readerは、ウェブページのコンテンツを抽出する際、ウェブページ内の画像に対して自動的に説明タグを生成する。
    • これらのタグは、処理中にLLMが画像の内容を理解しやすくするために、画像のalt属性として使用されます。
  3. PDF閲覧::
    • PDFのURLに "https://r.jina.ai/https://example.com/document.pdf "のような接頭辞を付けて入力します。
    • Jina AI Readerは、PDFコンテンツを自動的に読み取り、LLMに適したテキスト形式に変換します。
    • 変換されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
  4. 検索機能::
    • 例えば "https://s.jina.ai/your+query "のように、"s.jina.ai "という接頭辞をクエリーに加える。
    • エンターキーを押すと、Jina AI Readerがウェブから最新情報を取得し、LLMに適したテキスト形式に変換します。
    • 検索結果はブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。

詳細設定

  • 画像説明タグ: デフォルトでは、画像説明タグ機能はオフになっています。ユーザーはリクエストヘッダに "x-with-generated-alt: true "を設定することで、この機能を有効にすることができます。
  • プロキシとクッキー利用者は、リクエストヘッダにプロキシやクッキーを設定することで、特定のコンテクストでJina AI Readerを利用することができます。

 

ストリーミングモード
コンテンツが利用可能になった時点で処理するには、リクエスト・ヘッダをストリーム・モードに設定する。これにより、最初のバイトを受信するまでの時間が最短になる:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

他のhtmlからmarkdownへのツールを推薦する

首席AI分享圈このコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。
キャプチャ
このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種(コンピューティング)"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

無断転載を禁じます:チーフAIシェアリングサークル " Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換
ja日本語