LangExtract - 構造化情報を抽出するためのGoogleのオープンソースPythonライブラリ

50.5K 00

LangExtractとは？

LangExtractは、非構造化テキストから構造化情報を抽出するために大規模言語モデル（LLM）を使用するGoogleオープンソースのPythonライブラリです。LangExtractの核となる強みは、各抽出を原文の正確な位置にマッピングする正確な原文位置決めと、トレースバックや検証を容易にする視覚的ハイライトのサポートです。クラウドモデルやローカルのオープンソースモデルを含む複数の言語モデルをサポートするLangExtractは、長いドキュメントを処理し、抽出効率を最適化することができます。LangExtractは、インタラクティブな視覚化機能を提供し、スタンドアロンのHTMLファイルを生成することができますので、ユーザは簡単に元のコンテキストで抽出結果を表示し、確認することができます。LangExtractは、医療、文学、金融など様々な分野で使用することができ、ユーザが複雑なテキストから価値ある情報を素早く抽出するのに役立ちます。

LangExtractの主な機能

テキスト抽出構造化されていないテキストから重要な情報を抽出し、臨床記録、報告書など、さまざまな種類のデータをサポートします。
正確なポジショニング抽出されたコンテンツをソーステキストの位置に正確にマッピングし、トレーサビリティと検証のための視覚的なハイライトをサポートします。
構造化出力抽出した情報を構造化フォーマット（JSONLなど）で出力し、その後の処理や分析を容易にする。
ロング・ドキュメントの最適化テキストチャンキングと多ラウンド抽出戦略により、超長文文書を効率的に処理し、リコールを向上させる。
インタラクティブなビジュアライゼーションインタラクティブなHTMLファイルを生成し、ユーザーが抽出結果を元のコンテキストで表示、確認できるようにします。
柔軟なモデルサポートクラウドベースのモデル（Google Geminiなど）やローカルのオープンソースモデルなど、複数の言語モデルをサポートしています。
ドメイン適応医療、文学、金融などの複数のドメインに対して、モデルを微調整することなく、少ない例数であらゆるドメインの抽出タスクを定義することができます。
効率的な処理並列処理をサポートし、抽出効率を高め、大規模なテキスト処理に適しています。

LangExtractプロジェクトのアドレス

プロジェクトのウェブサイト:: https://pypi.org/project/langextract/
GitHubリポジトリ:: https://github.com/google/langextract

LangExtractの使い方

LangExtractのインストールPythonのパッケージ管理ツールpipを使ってLangExtractライブラリをインストールします。
抽出タスクを定義する要件に基づいて抽出手順を作成し、抽出する情報の種類を指定し、少量のサンプルデータを準備する。
構成モデルクラウドモデル（例：Google Gemini）かローカルモデル（例：Google Gemini経由で）のどちらか、適切な言語モデルを選択する。オーラマ (インターフェース）。
コードを書くモデルをロードし、抽出関数を呼び出すために、LangExtractによって提供されるAPIを使用してコードを記述します。
操作抽出ターゲットテキストに対して抽出操作を実行するコードを実行すると、LangExtractは定義されたタスクとモデルに従って情報抽出を実行します。
結果を保存抽出結果を構造化フォーマット（JSONLファイルなど）で保存し、その後の処理を容易にします。
視覚化レポートの作成LangExtractが提供するツールを使って、抽出結果を簡単に見たり検証したりするためのインタラクティブなHTML可視化レポートを作成することができます。
最適化と調整抽出結果の精度や要求に応じて、抽出指示やモデルパラメータを調整し、抽出結果を最適化する。

LangExtractの核となる強み

原文の正確な位置決め各抽出を原文内の位置に正確に対応させることができ、視覚的なハイライトをサポートし、トレーサビリティと検証を容易にします。
柔軟なモデル適応クラウドモデル（例：Google Gemini）やローカルのオープンソースモデル（例：Ollamaインターフェース）を含む複数の言語モデルをサポートしており、さまざまなシナリオのニーズに適応します。
長文文書の処理の最適化テキストチャンキング、並列処理、マルチラウンド抽出戦略により、抽出効率と想起率を向上させるため、非常に長い文書に最適化されています。
インタラクティブなビジュアライゼーションワンクリックで生成されるインタラクティブなHTMLビジュアライゼーション・レポートを提供し、ユーザーが抽出結果を元のコンテキストで簡単に表示、確認できるようにします。
効率的な構造化出力少数の例に基づいて一貫した出力パターンを強制することで、抽出結果の構造化とロバスト性を保証します。
現場への適応力が高い医療、文学、金融など幅広いドメインに対して、モデルを微調整することなく、わずかな例であらゆるドメインの抽出タスクを定義します。