AI Personal Learning
und praktische Anleitung

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

Allgemeine Einführung

OmniParse ist eine leistungsstarke Plattform zum Parsen und Optimieren von Daten, die unstrukturierte Daten in strukturierte, verwertbare Daten umwandelt, die für GenAI (Generative Artificial Intelligence)-Frameworks optimiert sind. Ob Sie mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder Webinhalten arbeiten, OmniParse macht Ihre Daten sauber, strukturiert und bereit für KI-Anwendungen wie RAG (Retrieval Augmented Generation) und Feinabstimmung.

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten


 

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

Open-Source-Demo-Adresse: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Funktionsliste

  • Vollständig lokalisiert, keine externe API erforderlich
  • Für T4-GPUs
  • Unterstützt etwa 20 Dateitypen
  • Konvertierung von Dokumenten, Multimedia und Webseiten in hochwertiges strukturiertes Markdown
  • Tabellenextraktion, Bildextraktion/Untertitelung, Audio-/Videotranskription, Webcrawling
  • Einfache Bereitstellung mit Docker und Skypilot
  • Freundliche Colab-Umgebung
  • Interaktive Benutzeroberfläche mit Gradio

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lager::
    git klonen. https://github.com/adithya-s-k/omniparse
    cd omniparent
    
  2. Erstellen einer virtuellen Umgebung::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Installation von Abhängigkeiten::
    Poesie installieren
    # oder
    pip install -e .
    # oder
    pip install -r pyproject.toml
    

Docker verwenden

  1. Abrufen von OmniParse API-Images von Docker Hub::
    docker pull savatar101/omniparse:0.1
    
  2. Starten Sie den Docker-Container und geben Sie Port 8000 frei.::
    # Bei Verwendung einer GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # Ansonsten
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Betriebsserver

  1. Starten Sie den Server::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • -DokumenteLaden aller Modelle, die beim Parsen und Einlesen von Dokumenten helfen (z. B. die Surya OCR-Modellfamilie und Florence-2).
    • --mediaLaden Sie Whisper-Modelle, um Audio- und Videodateien zu transkribieren.
    • --webEinrichten des Selenium-Crawlers.

Unterstützte Datentypen

  • (Computer-)Datei::.doc.docx.pdf.ppt.pptx
  • Bildmaterial::.png.jpg.jpeg.tiff.bmp.heic
  • Video::.mp4.mkv.avi.mov
  • Tonfrequenz::.mp3.wav.aac
  • Web-Seite: dynamische Webseiten.http://.com

Anwendungsbeispiel

  1. Dokumentenauflösung::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    Dadurch werden alle Modelle für das Parsen von Dokumenten geladen, die bereit sind, Daten des Dokumenttyps zu verarbeiten.

  2. Multimedia-Parsing::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    Dadurch wird das Whisper-Modell geladen und ist bereit, Audio- und Videodateien zu verarbeiten.

  3. Web-Crawler::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Dadurch wird der Selenium-Crawler eingerichtet und ist bereit, Webinhalte zu verarbeiten.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)