はじめに
OmniParseは、あらゆる非構造化データを、GenAI(生成的人工知能)フレームワーク用に最適化された、構造化された実用的なデータに変換するために設計された、強力なデータ解析および最適化プラットフォームです。ドキュメント、テーブル、イメージ、ビデオ、オーディオファイル、ウェブコンテンツなど、OmniParseはデータをクリーンで構造化し、RAG(Retrieval Augmented Generation)やファインチューニングなどのAIアプリケーションに対応できるようにします。
- オープンソースのデモアドレス:https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
機能一覧
- 完全にローカライズされ、外部APIは不要
- T4 GPU用
- 約20種類のファイルをサポート
- ドキュメント、マルチメディア、ウェブページを高品質な構造化Markdownに変換
- テーブル抽出、画像抽出/字幕作成、音声/動画トランスクリプション、ウェブクローリング
- DockerとSkypilotによる簡単なデプロイメント
- フレンドリーなラボ環境
- GradioによるインタラクティブUI
ヘルプの使用
設置プロセス
- クローン倉庫::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- 仮想環境の構築::
conda create -n omniparse-venv python=3.10 conda omniparse-venv を起動する。
- 依存関係のインストール::
ポエトリーインストール # または pip install -e . # または pip install -r pyproject.toml
Dockerの使用
- Docker HubからOmniParse APIイメージを取り込む::
docker pull savatar101/omniparse:0.1
- Dockerコンテナを実行し、ポート8000を公開する。::
# GPUを使う場合 docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # それ以外の場合 docker run -p 8000:8000 savatar101/omniparse:0.1
オペレーション・サーバー
- サーバーの起動::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--ドキュメント
文書の解析と取り込みを支援するすべてのモデル(Surya OCRモデルファミリーやFlorence-2など)をロードします。--メディア
Whisperモデルを読み込んで音声ファイルやビデオファイルを書き起こします。--ウェブ
Seleniumクローラーのセットアップ。
サポートされるデータタイプ
- (さんぷ::
ドキュメント
,.docx
,pdf
,.ppt
,.pptx
- イメージ::
.png
,.jpg
,JPEG
,.tiff
,.bmp
,ハイック
- ビデオ::
.mp4
,.mkv
,.avi
,.mov
- 音響周波数::
mp3
,.wav
,.aac
- ウェブページ動的ウェブページ。
http://.com
使用例
- 文書解像度::
python server.py --host 0.0.0.0 --port 8000 --documents
これは、文書タイプのデータを処理する準備ができているすべての文書解析モデルをロードする。
- マルチメディア・パース::
python server.py --host 0.0.0.0 --port 8000 --media
これにより、Whisperモデルはオーディオおよびビデオファイルを処理する準備が整いました。
- ウェブクローラー::
python server.py --host 0.0.0.0 --port 8000 --web
これでSeleniumクローラーがセットアップされ、ウェブコンテンツを処理できるようになります。