Allgemeine Einführung
OmniParse ist eine leistungsstarke Plattform zum Parsen und Optimieren von Daten, die unstrukturierte Daten in strukturierte, verwertbare Daten umwandelt, die für GenAI (Generative Artificial Intelligence)-Frameworks optimiert sind. Ob Sie mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder Webinhalten arbeiten, OmniParse macht Ihre Daten sauber, strukturiert und bereit für KI-Anwendungen wie RAG (Retrieval Augmented Generation) und Feinabstimmung.
- Open-Source-Demo-Adresse: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Funktionsliste
- Vollständig lokalisiert, keine externe API erforderlich
- Für T4-GPUs
- Unterstützt etwa 20 Dateitypen
- Konvertierung von Dokumenten, Multimedia und Webseiten in hochwertiges strukturiertes Markdown
- Tabellenextraktion, Bildextraktion/Untertitelung, Audio-/Videotranskription, Webcrawling
- Einfache Bereitstellung mit Docker und Skypilot
- Freundliche Colab-Umgebung
- Interaktive Benutzeroberfläche mit Gradio
Hilfe verwenden
Ablauf der Installation
- Klon-Lager::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Erstellen einer virtuellen Umgebung::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Installation von Abhängigkeiten::
Poesie installieren # oder pip install -e . # oder pip install -r pyproject.toml
Docker verwenden
- Abrufen von OmniParse API-Images von Docker Hub::
docker pull savatar101/omniparse:0.1
- Starten Sie den Docker-Container und geben Sie Port 8000 frei.::
# Bei Verwendung einer GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # Andernfalls docker ausführen -p 8000:8000 savatar101/omniparse:0.1
Betriebsserver
- Starten Sie den Server::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
-Dokumente
Laden aller Modelle, die beim Parsen und Einlesen von Dokumenten helfen (z. B. die Surya OCR-Modellfamilie und Florence-2).--media
Laden Sie Whisper-Modelle, um Audio- und Videodateien zu transkribieren.--web
Einrichten des Selenium-Crawlers.
Unterstützte Datentypen
- (Computer-)Datei::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- Bildmaterial::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- Video::
.mp4
,.mkv
,.avi
,.mov
- Tonfrequenz::
.mp3
,.wav
,.aac
- Web-Seite: dynamische Webseiten.
http://.com
Anwendungsbeispiel
- Dokumentenauflösung::
python server.py --host 0.0.0.0 --port 8000 --documents
Dadurch werden alle Modelle für das Parsen von Dokumenten geladen, die bereit sind, Daten des Dokumenttyps zu verarbeiten.
- Multimedia-Parsing::
python server.py --host 0.0.0.0 --port 8000 --media
Dadurch wird das Whisper-Modell geladen und ist bereit, Audio- und Videodateien zu verarbeiten.
- Web-Crawler::
python server.py --host 0.0.0.0 --port 8000 --web
Dadurch wird der Selenium-Crawler eingerichtet und ist bereit, Webinhalte zu verarbeiten.