AIパーソナル・ラーニング
と実践的なガイダンス

Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

はじめに

 

Jina AIのReaderプロジェクトは、オープンソースツール(リーダー・オープンソース・アドレス)があり、入力フォーマットに接頭辞https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)を付加することで、任意のURLを取ることができ、動的ストリーミング・モードや画像読み込みなどの機能をサポートしている。


ウェブページの核となるコンテンツを簡単に取り込み、LLMの処理に適したきれいなテキストに変換することができます。このツールはウェブページのテキストだけでなく、画像やPDFファイルも扱うことができ、LLMがより効率的にコンテンツを理解し処理できるように、必要なタグやフォーマットを自動的に追加します。このプロジェクトはNode v18とFirebase CLIで動作し、Apache 2.0ライセンスの下で利用可能です。

 

Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換-1

 

 

機能一覧

  • ウェブコンテンツ抽出任意のURLをLLMに適したテキスト形式に変換します。
  • 画像認識ウェブページ内の画像の説明タグを自動的に生成します。
  • PDF閲覧任意のURLからPDFファイルを読み込み、LLMに適したテキストに変換します。
  • 検索機能"s.jina.ai "をクエリの前に付けることで、ウェブから最新の情報を取得し、LLMに適したフォーマットに変換します。
  • 高い同時実行性と信頼性多数の同時リクエストをサポートする高いアクセシビリティと信頼性を提供します。

 

 

ヘルプの使用

インストールと使用

Jina AI Readerはインストール不要で、ユーザーはURLに接頭辞 "r.jina.ai "を追加するだけです。例えば、URL "https://en.wikipedia.org/wiki/Artificial_intelligence "をLLMに適した入力フォーマットに変換するには、以下のURLを使用するだけです:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

同様に、ウェブ検索を実行し、LLMに適した結果を得るには、例えば、クエリの前に "s.jina.ai "を付ける:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

機能 操作の流れ

  1. ウェブコンテンツ抽出::
    • ブラウザのURLを "https://r.jina.ai/https://example.com "のような接頭語付きで入力してください。
    • Enterキーを押すと、Jina AI Readerは自動的にウェブページの内容を抽出し、LLMに適したテキスト形式に変換します。
    • 抽出されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
  2. 画像認識::
    • Jina AI Readerは、ウェブページのコンテンツを抽出する際、ウェブページ内の画像に対して自動的に説明タグを生成する。
    • これらのタグは、処理中にLLMが画像の内容を理解しやすくするために、画像のalt属性として使用されます。
  3. PDF閲覧::
    • PDFのURLに "https://r.jina.ai/https://example.com/document.pdf "のような接頭辞を付けて入力します。
    • Jina AI Readerは、PDFコンテンツを自動的に読み取り、LLMに適したテキスト形式に変換します。
    • 変換されたコンテンツはブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。
  4. 検索機能::
    • 例えば "https://s.jina.ai/your+query "のように、"s.jina.ai "という接頭辞をクエリーに加える。
    • エンターキーを押すと、Jina AI Readerがウェブから最新情報を取得し、LLMに適したテキスト形式に変換します。
    • 検索結果はブラウザに表示され、ユーザーはそれを直接コピーしたり、さらに加工したりすることができる。

詳細設定

  • 画像説明タグ: デフォルトでは、画像説明タグ機能はオフになっています。ユーザーはリクエストヘッダに "x-with-generated-alt: true "を設定することで、この機能を有効にすることができます。
  • プロキシとクッキー利用者は、リクエストヘッダにプロキシやクッキーを設定することで、特定のコンテクストでJina AI Readerを利用することができます。

 

ストリーミングモード
コンテンツが利用可能になった時点で処理するには、リクエスト・ヘッダをストリーム・モードに設定する。これにより、最初のバイトを受信するまでの時間が最短になる:
カール -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

他のhtmlからmarkdownへのツールを推薦する

チーフAIシェアリングサークルこのコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。
キャプチャ
このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種(コンピューティング)"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語