OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

51.4K 00

はじめに

OmniParseは、あらゆる非構造化データを、GenAI（生成的人工知能）フレームワーク用に最適化された、構造化された実用的なデータに変換するために設計された、強力なデータ解析および最適化プラットフォームです。ドキュメント、テーブル、イメージ、ビデオ、オーディオファイル、ウェブコンテンツなど、OmniParseはデータをクリーンで構造化し、RAG(Retrieval Augmented Generation)やファインチューニングなどのAIアプリケーションに対応できるようにします。

: オープンソースのデモアドレス：https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

機能一覧

完全にローカライズされ、外部APIは不要
T4 GPU用
約20種類のファイルをサポート
ドキュメント、マルチメディア、ウェブページを高品質な構造化Markdownに変換
テーブル抽出、画像抽出/字幕作成、音声/動画トランスクリプション、ウェブクローリング
DockerとSkypilotによる簡単なデプロイメント
フレンドリーなラボ環境
GradioによるインタラクティブUI

ヘルプの使用

設置プロセス

クローン倉庫::

git clone https://github.com/adithya-s-k/omniparse
cd omniparse

仮想環境の構築::

conda create -n omniparse-venv python=3.10
conda activate omniparse-venv

依存関係のインストール::

poetry install
# 或者
pip install -e .
# 或者
pip install -r pyproject.toml

Dockerの使用

Docker HubからOmniParse APIイメージを取り込む::
```
docker pull savatar101/omniparse:0.1
```

Dockerコンテナを実行し、ポート8000を公開する。::

# 如果使用GPU
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# 否则
docker run -p 8000:8000 savatar101/omniparse:0.1

オペレーション・サーバー

サーバーの起動::
```
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
```
- --documents文書の解析と取り込みを支援するすべてのモデル（Surya OCRモデルファミリーやFlorence-2など）をロードします。
- --mediaWhisperモデルを読み込んで音声ファイルやビデオファイルを書き起こします。
- --webSeleniumクローラーのセットアップ。

サポートされるデータタイプ

(さんぷ::.doc, .docx, .pdf, .ppt, .pptx
イメージ::.png, .jpg, .jpeg, .tiff, .bmp, .heic
ビデオ::.mp4, .mkv, .avi, .mov
音響周波数::.mp3, .wav, .aac
ウェブページ動的ウェブページ。http://.com

使用例

文書解像度::
```
python server.py --host 0.0.0.0 --port 8000 --documents
```
これは、文書タイプのデータを処理する準備ができているすべての文書解析モデルをロードする。
マルチメディア・パース::
```
python server.py --host 0.0.0.0 --port 8000 --media
```
これにより、Whisperモデルはオーディオおよびビデオファイルを処理する準備が整いました。
ウェブクローラー::
```
python server.py --host 0.0.0.0 --port 8000 --web
```
これでSeleniumクローラーがセットアップされ、ウェブコンテンツを処理できるようになります。