はじめに
Jina AIのReaderプロジェクトは、オープンソースツール(リーダー・オープンソース・アドレス)があり、入力フォーマットに接頭辞https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)を付加することで、任意のURLを取ることができ、動的ストリーミング・モードや画像読み込みなどの機能をサポートしている。
ウェブページの核となるコンテンツを簡単に取り込み、LLMの処理に適したきれいなテキストに変換することができます。このツールはウェブページのテキストだけでなく、画像やPDFファイルも扱うことができ、LLMがより効率的にコンテンツを理解し処理できるように、必要なタグやフォーマットを自動的に追加します。このプロジェクトはNode v18とFirebase CLIで動作し、Apache 2.0ライセンスの下で利用可能です。
機能一覧
- ウェブコンテンツ抽出任意のURLをLLMに適したテキスト形式に変換します。
- 画像認識ウェブページ内の画像の説明タグを自動的に生成します。
- PDF閲覧任意のURLからPDFファイルを読み込み、LLMに適したテキストに変換します。
- 検索機能"s.jina.ai "をクエリの前に付けることで、ウェブから最新の情報を取得し、LLMに適したフォーマットに変換します。
- 高い同時実行性と信頼性多数の同時リクエストをサポートする高いアクセシビリティと信頼性を提供します。
ヘルプの使用
インストールと使用
Jina AI Readerはインストール不要で、ユーザーはURLに接頭辞 "r.jina.ai "を追加するだけです。例えば、URL "https://en.wikipedia.org/wiki/Artificial_intelligence "をLLMに適した入力フォーマットに変換するには、以下のURLを使用するだけです:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
同様に、ウェブ検索を実行し、LLMに適した結果を得るには、例えば、クエリの前に "s.jina.ai "を付ける:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
機能 操作の流れ
- ウェブコンテンツ抽出::
- ブラウザのURLを "https://r.jina.ai/https://example.com "のような接頭語付きで入力してください。
- Enterキーを押すと、Jina AI Readerは自動的にウェブページの内容を抽出し、LLMに適したテキスト形式に変換します。
- 抽出されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
- 画像認識::
- Jina AI Readerは、ウェブページのコンテンツを抽出する際、ウェブページ内の画像に対して自動的に説明タグを生成する。
- これらのタグは、処理中にLLMが画像の内容を理解しやすくするために、画像のalt属性として使用されます。
- PDF閲覧::
- PDFのURLに "https://r.jina.ai/https://example.com/document.pdf "のような接頭辞を付けて入力します。
- Jina AI Readerは、PDFコンテンツを自動的に読み取り、LLMに適したテキスト形式に変換します。
- 変換されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
- 検索機能::
- 例えば "https://s.jina.ai/your+query "のように、"s.jina.ai "という接頭辞をクエリーに加える。
- エンターキーを押すと、Jina AI Readerがウェブから最新情報を取得し、LLMに適したテキスト形式に変換します。
- 検索結果はブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
詳細設定
- 画像説明タグ: デフォルトでは、画像説明タグ機能はオフになっています。ユーザーはリクエストヘッダに "x-with-generated-alt: true "を設定することで、この機能を有効にすることができます。
- プロキシとクッキー利用者は、リクエストヘッダにプロキシやクッキーを設定することで、特定のコンテクストでJina AI Readerを利用することができます。
コンテンツが利用可能になった時点で処理するには、リクエスト・ヘッダをストリーム・モードに設定する。これにより、最初のバイトを受信するまでの時間が最短になる:
カール -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
他のhtmlからmarkdownへのツールを推薦する