はじめに
Unstructured-IOは、画像やPDF、HTML、Word文書などのテキスト文書を処理・前処理するためのさまざまなオープンソースコンポーネントを提供します。主な目的は、データ処理ワークフロー、特に大規模言語モデル(LLM)アプリケーションの簡素化と最適化です。Unstructured-IOのモジュラー機能とコネクターは、データの取り込みと前処理を効率化し、さまざまなプラットフォームに適応できる統合システムを形成します。
機能一覧
- データの取り込みと前処理
- 複数のドキュメントタイプに対応(PDF、HTML、Wordなど)
- モジュラー機能とコネクター
- オープンソースのAPIとクライアントライブラリを提供
- Dockerコンテナによるデプロイをサポート
- パフォーマンスを向上させるサーバーレスAPIの提供
ヘルプの使用
設置プロセス
- Dockerコンテナ・ランタイム・ライブラリの使用
- Dockerがインストールされていることを確認する。
- 以下のコマンドを実行し、適切なDockerイメージをダウンロードして実行する:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run --itrm downloads.unstructured.io/unstructured-io/unstructured:latest
- PyPIからライブラリをインストールする
- インストールにはpipを使う:
pip install unstructured
- インストールにはpipを使う:
- 地域開発インストール
- GitHubリポジトリをクローンする:
ギット クローン https://github.com/Unstructured-IO/unstructured.git cd 非構造化 pip install -e .
- GitHubリポジトリをクローンする:
使用ガイドライン
- データの取り込み
- 利用する
不定形
ライブラリーは文書を取り込む:より 非構造化パーティション.pdf インポート パーティションpdf document = partition_pdf("example.pdf")
- 利用する
- データ前処理
- 書類を整理して塊にする:
より 非構造化クリーナー・コア インポート クリーン clean_document = clean(document)
- 書類を整理して塊にする:
- データソースとターゲットへの接続
- コネクタを使用して、データをターゲット・ロケーションに転送する:
より 非構造化コネクタ インポート 送信先 send_to_destination(cleaned_document, destination="s3://バケット名")
- コネクタを使用して、データをターゲット・ロケーションに転送する:
- サーバーレスAPI
- 登録し、APIキーを取得します:
- インタビュー 非構造化API登録ページ.
- APIキーを取得し、使用を開始する:
インポート リクエスト ヘッダー = {"認可": "ベアラ YOUR_API_KEY"} response = requests.post()"https://api.unstructured.io/process"headers=headers, json={「ドキュメント: "example.pdf"})
- 登録し、APIキーを取得します: