AI Personal Learning
und praktische Anleitung
讯飞绘镜

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

Allgemeine Einführung

OmniParse ist eine leistungsstarke Plattform zum Parsen und Optimieren von Daten, mit der unstrukturierte Daten in strukturierte, verwertbare Daten umgewandelt werden können, die für GenAI-Frameworks (Generative Artificial Intelligence) optimiert sind. Ob Sie mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder Webinhalten arbeiten, OmniParse macht Ihre Daten sauber, strukturiert und bereit für KI-Anwendungen wie RAG (Retrieval Augmented Generation) und Feinabstimmung.

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据-1


 

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据-1
Open-Source-Demo-Adresse: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Funktionsliste

  • Vollständig lokalisiert, keine externe API erforderlich
  • Für T4-GPUs
  • Unterstützt etwa 20 Dateitypen
  • Konvertierung von Dokumenten, Multimedia und Webseiten in hochwertiges strukturiertes Markdown
  • Tabellenextraktion, Bildextraktion/Untertitelung, Audio-/Videotranskription, Webcrawling
  • Einfache Bereitstellung mit Docker und Skypilot
  • Freundliche Colab-Umgebung
  • Interaktive Benutzeroberfläche mit Gradio

Hilfe verwenden

Einbauverfahren

  1. Klon-Lager::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. Erstellen einer virtuellen Umgebung::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Installation von Abhängigkeiten::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Docker verwenden

  1. Abrufen von OmniParse API-Images von Docker Hub::
    docker pull savatar101/omniparse:0.1
    
  2. Starten Sie den Docker-Container und geben Sie Port 8000 frei.::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Operationsserver

  1. Starten Sie den Server::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documentsLaden aller Modelle, die beim Parsen und Einlesen von Dokumenten helfen (z. B. die Surya OCR-Modellfamilie und Florence-2).
    • --mediaLaden Sie Whisper-Modelle, um Audio- und Videodateien zu transkribieren.
    • --webEinrichten des Selenium-Crawlers.

Unterstützte Datentypen

  • (Computer-)Datei::.doc.docx.pdf.ppt.pptx
  • Bildmaterial::.png.jpg.jpeg.tiff.bmp.heic
  • Video::.mp4.mkv.avi.mov
  • Tonfrequenz::.mp3.wav.aac
  • Web-Seite: dynamische Webseiten.http://.com

Anwendungsbeispiel

  1. Dokumentenauflösung::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    Dadurch werden alle Modelle für das Parsen von Dokumenten geladen, die bereit sind, Daten des Dokumenttyps zu verarbeiten.

  2. Multimedia-Parsing::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    Dadurch wird das Whisper-Modell geladen und ist bereit, Audio- und Videodateien zu verarbeiten.

  3. Web-Crawler::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Dadurch wird der Selenium-Crawler eingerichtet und ist bereit, Webinhalte zu verarbeiten.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten
de_DEDeutsch