ジーナAI、HTMLウェブページの主要コンテンツを効率的に抽出する画期的な小言語モデル「Reader-LM」を発表

53.2K 00

Jina AIはReader-LM-0.5BとReader-LM-1.5Bをリリースしました。この2つの小さな言語モデルは、オープンウェブから生のノイズの多いHTMLをクリーンなMarkdownフォーマットに変換するように設計されており、最大256Kトークンのコンテキスト長をサポートし、変換タスクにおいて大規模な言語モデルと同等以上のパフォーマンスを示します。変換タスクでの性能。

序文

2024年4月、Jina AIは、あらゆるURLをLLMに適したマークダウンに変換するシンプルなAPI、Jina Readerをリリースした。このAPIは、ヘッドレスChromeブラウザを使ってウェブページのソースコードを取得し、MozillaのReadabilityパッケージを使ってメインコンテンツを抽出し、正規表現とTurndownライブラリを使用して、クリーンアップされたHTMLをマークダウンに変換します。

リリース後、ユーザーからのフィードバックでコンテンツの品質に問題があることが指摘されたが、ジーナAIは既存のパイプラインにパッチを当てることで対処した。

それ以来、私たちは、ヒューリスティックや正規表現（これらはメンテナンスがますます難しくなり、多言語対応には不向きである）をさらにいじくり回す代わりに、言語モデルでこの問題をエンド・ツー・エンドで解決できないか、と考えてきた。

Jina AI 推出革命性小型语言模型 Reader-LM，高效提取HTML网页主要内容

reader-lmを説明する図。可読性＋ターンダウン＋正規表現ヒューリスティックスのパイプラインを小さな言語モデルに置き換えたもの。

Reader-LMについて

2024年9月11日 -- コンテンツ処理とテキスト変換のための人工知能の革新を推進し続けるジーナAIは、本日、最新の技術成果であるReader-LM-0.5BとReader-LM-1.5Bの2つの小型言語モデルの発売を発表した。小型言語モデルです。複雑なHTMLを構造化されたマークダウン形式に効率的に変換し、ビッグデータ時代のコンテンツ管理と機械学習アプリケーションに強力なサポートを提供します。

画期的なパフォーマンスと効率性

Reader-LM-0.5BとReader-LM-1.5Bモデルは、コンパクトなパラメータサイズを維持しながら、より大きな言語モデルに匹敵するか、それ以上のパフォーマンスを達成します。最大256Kトークンのコンテキスト長をサポートするこれらのモデルは、インラインCSSやスクリプトなどのモダンHTMLのノイズ要素を処理し、クリーンで構造化されたMarkdownファイルを生成します。これは、生のウェブコンテンツからテキストを抽出・変換する必要があるユーザーにとって非常に便利です。

ユーザーフレンドリーなハンズオン体験

Jina AIは、Google Colab (0.5B歌で応える1.5BReader-LMモデルは、Reader-LMノートを使ってReader-LMモデルのパワーを簡単に体験できるように設計されています。異なるバージョンのモデルのロード、処理されたサイトのURLの変更、出力の探索など、ユーザーは無料でクラウドベースの環境で行うことができます。さらに、Reader-LMは間もなくAzureとAWSのマーケットプレイスで利用可能になり、企業ユーザーにより多くの統合と展開のオプションを提供する。

従来のモデルを超えるパフォーマンス

GPT-4o、Gemini-1.5-Flash、Gemini-1.5-Pro、LLaMA-3.1-70B、Qwen2-7B-Instructなどの大規模言語モデルとの比較テストを通じて、Reader-LMは、ROUGE-L、Word Error Rate (WER)、Qwen2-7B-Instructにおいて良好な結果を示しました。トークンエラー率（TER）、その他の主要な評価基準。これらの評価により、Reader-LMが精度、再現性、クリーンなMarkdownを生成する能力において優れていることが実証されました。

質的調査でもその効果は確認されている

定量的評価に加え、Jina AIは、視覚的に検査された出力Markdownの定性的調査を通じて、見出し抽出、主要コンテンツ抽出、構造保存、およびMarkdown構文使用におけるReader-LMの優れた性能を確認した。これらの結果は、実世界のアプリケーションにおけるReader-LMの効率性と信頼性を強調しています。

2段階トレーニングの革新的アプローチ

Jina AIは、Reader-LMをトレーニングするプロセスの詳細を明らかにした。データの準備、2段階のトレーニング、モデルの劣化とサイクリングの問題をどのように克服したかを含む。彼らは訓練データの質の重要性を強調し、比較検索や繰り返し停止基準などの技術的手段によってモデルの安定性と生成の質を確保した。

究極

Jina AIのReader-LMは、スモール・ランゲージ・モデリングの分野における大きなブレークスルーであるだけでなく、オープンなウェブコンテンツ処理能力を大幅に強化するものです。これら2つのモデルのリリースは、開発者やデータ科学者に効率的で使いやすいツールを提供するだけでなく、コンテンツ抽出、クレンジング、変換におけるAIアプリケーションの新たな可能性を開くものでもあります。