AI Personal Learning
und praktische Anleitung

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Allgemeine Einführung

Ollama OCR ist ein leistungsfähiges Toolkit für die optische Zeichenerkennung (OCR), das Text aus Bildern extrahiert und dabei hochmoderne visuelle Sprachmodelle verwendet, die von der Ollama-Plattform bereitgestellt werden. Das Projekt ist sowohl als Python-Paket als auch als benutzerfreundliche Streamlit-Webanwendungsschnittstelle verfügbar. Es unterstützt eine breite Palette von Bildverarbeitungsmodellen, darunter LLaVA 7B für die Echtzeitverarbeitung und das hochpräzise Llama 3.2 Vision-Modell für komplexe Dokumente. Ollama OCR zeichnet sich durch die Unterstützung einer Vielzahl von Ausgabeformaten aus, darunter Markdown, reiner Text, JSON usw., sowie durch seine Stapelverarbeitungsfunktionen. Das Tool ist besonders für Entwickler und Forscher geeignet, die Textdaten aus Bildern extrahieren und strukturieren müssen.

Ollama OCR: Extraktion von Text aus Bildern mit Hilfe visueller Modelle in Ollama-1


 

Funktionsliste

  • Unterstützung für mehrere fortgeschrittene visuelle Sprachmodelle (LLaVA 7B und Llama 3.2 Vision)
  • Bereitstellung verschiedener Ausgabeformate (Markdown, einfacher Text, JSON, strukturierte Daten, Schlüssel-Wert-Paare)
  • Unterstützt Stapelverarbeitungsfunktion, kann mehrere Bilder parallel verarbeiten
  • Integrierte Bildvorverarbeitung (Größenänderung, Normalisierung usw.)
  • Fortschrittskontrolle und Verarbeitungsstatistiken bereitstellen
  • Unterstützt die benutzerfreundliche Streamlit-Weboberfläche
  • Unterstützung des Hochladens von Bildern per Drag-and-Drop und Echtzeitverarbeitung
  • Download-Funktion für extrahierten Text bereitstellen
  • Integrierte Bildvorschau und detaillierte Informationsanzeige

 

Hilfe verwenden

1. die Installationsschritte

  1. Die Ollama-Plattform muss zuerst installiert werden:
    • Besuchen Sie die offizielle Ollama-Website, um das Installationspaket für Ihr System herunterzuladen.
    • Vervollständigen Sie die Grundinstallation von Ollama
  2. Installieren Sie das gewünschte visuelle Modell:
ollama pull llama3.2-vision:11b
  1. Installieren Sie das Ollama OCR-Paket:
pip install ollama-ocr

2. die Verwendung von Python-Paketen

2.1 Einzelbildverarbeitung

from ollama_ocr import OCRProzessor
# Initialisieren des OCR-Prozessors
ocr = OCRProcessor(model_name='ollama3.2-vision:11b')
# Verarbeiten eines einzelnen Bildes
result = ocr.process_image(
image_path="Bildpfad.png",
format_type="markdown" # Optionale Formate: markdown, text, json, structured, key_value
)
print(ergebnis)

2.2 Stapelverarbeitung von Bildern

# Initialisieren Sie den OCR-Prozessor und legen Sie die Anzahl der parallelen Verarbeitung fest
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# verarbeitet die Bilder im Stapel
batch_results = ocr.process_batch(
input_path="Bildordnerpfad",
format_type="markdown",
recursive=True, # durchsucht Unterverzeichnisse
preprocess=True # Aktivieren der Bildvorverarbeitung
)
# Verarbeitungsergebnisse anzeigen
for file_path, text in batch_results['results'].items()::
print(f"\n Datei: {file_path}")
print(f "Extrahierter Text: {text}")
# Anzeigen der Verarbeitungsstatistik
print(f "Bilder insgesamt: {batch_results['statistics']['total']}")
print(f "Erfolgreiche Verarbeitung: {batch_results['statistics']['successful']}")
print(f "Verarbeitung fehlgeschlagen: {batch_results['statistics']['failed']}")

3. wie man die Streamlit-Webanwendung nutzt

  1. Klonen Sie das Code-Repository:
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
  1. Installieren Sie die Abhängigkeit:
pip install -r anforderungen.txt
  1. Starten Sie die Webanwendung:
cd src/ollama_ocr
streamlit app.py ausführen

4. eine Beschreibung der Ausgabeformate

  • Markdown-Formatierung: Beibehaltung der Textformatierung, einschließlich Überschriften und Listen
  • Klartextformatierung: bietet eine saubere und einfache Textextraktion
  • JSON-Format: Ausgabe im strukturierten Datenformat
  • Strukturierte Formate: Tabellen und organisierte Daten
  • Schlüssel-Wert-Paar-Format: Extrahieren von markierten Informationen

5. vorsichtsmaßnahmen

  • Das LLaVA-Modell kann gelegentlich falsche Ergebnisse liefern, und es wird empfohlen, für wichtige Szenarien das Llama 3.2 Vision-Modell zu verwenden
  • Die Bildvorverarbeitung kann die Erkennungsgenauigkeit verbessern
  • Achten Sie bei der Stapelverarbeitung auf eine angemessene Einstellung der Anzahl der Parallelitäten, um einen übermäßigen Speicherverbrauch zu vermeiden.
  • Es wird empfohlen, die Fortschrittsverfolgung einzuschalten, wenn eine große Anzahl von Bildern verarbeitet wird.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)