AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

はじめに

OmniParseは、あらゆる非構造化データを、GenAI(生成的人工知能)フレームワーク用に最適化された、構造化された実用的なデータに変換するために設計された、強力なデータ解析および最適化プラットフォームです。ドキュメント、テーブル、イメージ、ビデオ、オーディオファイル、ウェブコンテンツなど、OmniParseはデータをクリーンで構造化し、RAG(Retrieval Augmented Generation)やファインチューニングなどのAIアプリケーションに対応できるようにします。

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースする-1


 

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースする-1
オープンソースのデモアドレス:https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

機能一覧

  • 完全にローカライズされ、外部APIは不要
  • T4 GPU用
  • 約20種類のファイルをサポート
  • ドキュメント、マルチメディア、ウェブページを高品質な構造化Markdownに変換
  • テーブル抽出、画像抽出/字幕作成、音声/動画トランスクリプション、ウェブクローリング
  • DockerとSkypilotによる簡単なデプロイメント
  • フレンドリーなラボ環境
  • GradioによるインタラクティブUI

ヘルプの使用

設置プロセス

  1. クローン倉庫::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. 仮想環境の構築::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. 依存関係のインストール::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Dockerの使用

  1. Docker HubからOmniParse APIイメージを取り込む::
    docker pull savatar101/omniparse:0.1
    
  2. Dockerコンテナを実行し、ポート8000を公開する。::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

オペレーション・サーバー

  1. サーバーの起動::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documents文書の解析と取り込みを支援するすべてのモデル(Surya OCRモデルファミリーやFlorence-2など)をロードします。
    • --mediaWhisperモデルを読み込んで音声ファイルやビデオファイルを書き起こします。
    • --webSeleniumクローラーのセットアップ。

サポートされるデータタイプ

  • (さんぷ::.doc.docx.pdf.ppt.pptx
  • イメージ::.png.jpg.jpeg.tiff.bmp.heic
  • ビデオ::.mp4.mkv.avi.mov
  • 音響周波数::.mp3.wav.aac
  • ウェブページ動的ウェブページ。http://.com

使用例

  1. 文書解像度::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    これは、文書タイプのデータを処理する準備ができているすべての文書解析モデルをロードする。

  2. マルチメディア・パース::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    これにより、Whisperモデルはオーディオおよびビデオファイルを処理する準備が整いました。

  3. ウェブクローラー::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    これでSeleniumクローラーがセットアップされ、ウェブコンテンツを処理できるようになります。

無断転載を禁じます:チーフAIシェアリングサークル " OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。
ja日本語