AIパーソナル・ラーニング
と実践的なガイダンス

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

はじめに

OmniParseは、あらゆる非構造化データを、GenAI(生成的人工知能)フレームワーク用に最適化された、構造化された実用的なデータに変換するために設計された、強力なデータ解析および最適化プラットフォームです。ドキュメント、テーブル、イメージ、ビデオ、オーディオファイル、ウェブコンテンツなど、OmniParseはデータをクリーンで構造化し、RAG(Retrieval Augmented Generation)やファインチューニングなどのAIアプリケーションに対応できるようにします。

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースする-1


 

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースする-1
オープンソースのデモアドレス:https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

機能一覧

  • 完全にローカライズされ、外部APIは不要
  • T4 GPU用
  • 約20種類のファイルをサポート
  • ドキュメント、マルチメディア、ウェブページを高品質な構造化Markdownに変換
  • テーブル抽出、画像抽出/字幕作成、音声/動画トランスクリプション、ウェブクローリング
  • DockerとSkypilotによる簡単なデプロイメント
  • フレンドリーなラボ環境
  • GradioによるインタラクティブUI

ヘルプの使用

設置プロセス

  1. クローン倉庫::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. 仮想環境の構築::
    conda create -n omniparse-venv python=3.10
    conda omniparse-venv を起動する。
    
  3. 依存関係のインストール::
    ポエトリーインストール
    # または
    pip install -e .
    # または
    pip install -r pyproject.toml
    

Dockerの使用

  1. Docker HubからOmniParse APIイメージを取り込む::
    docker pull savatar101/omniparse:0.1
    
  2. Dockerコンテナを実行し、ポート8000を公開する。::
    # GPUを使う場合
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # それ以外の場合
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

オペレーション・サーバー

  1. サーバーの起動::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --ドキュメント文書の解析と取り込みを支援するすべてのモデル(Surya OCRモデルファミリーやFlorence-2など)をロードします。
    • --メディアWhisperモデルを読み込んで音声ファイルやビデオファイルを書き起こします。
    • --ウェブSeleniumクローラーのセットアップ。

サポートされるデータタイプ

  • (さんぷ::ドキュメント.docxpdf.ppt.pptx
  • イメージ::.png.jpgJPEG.tiff.bmpハイック
  • ビデオ::.mp4.mkv.avi.mov
  • 音響周波数::mp3.wav.aac
  • ウェブページ動的ウェブページ。http://.com

使用例

  1. 文書解像度::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    これは、文書タイプのデータを処理する準備ができているすべての文書解析モデルをロードする。

  2. マルチメディア・パース::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    これにより、Whisperモデルはオーディオおよびビデオファイルを処理する準備が整いました。

  3. ウェブクローラー::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    これでSeleniumクローラーがセットアップされ、ウェブコンテンツを処理できるようになります。

無断転載を禁じます:チーフAIシェアリングサークル " OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語