AI Personal Learning
und praktische Anleitung

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

Allgemeine Einführung

GOT-OCR2.0 ist ein von StepStar mitentwickeltes Open Source Optical Character Recognition (OCR)-Modell, das die OCR-Technologie durch ein einheitliches End-to-End-Modell in Richtung OCR-2.0 vorantreiben soll. Das Modell unterstützt eine breite Palette von OCR-Aufgaben, einschließlich der Erkennung von einfachem Text, formatiertem Text, feinkörniger OCR, Multi-Crop OCR und mehrseitiger OCR. GOT-OCR2.0 wurde mit dem Ziel entwickelt, eine vielseitige und effiziente Lösung für eine breite Palette komplexer OCR-Anwendungsszenarien zu bieten.

Basierend auf dem QWen2 0.5 B Modell. Das OCR 2.0 genannte End-to-End-OCR-Modell mit 580 Mio. Parametern erreichte einen BLEU-Wert von 0,972. Adresse für Online-Erfahrungen: https://huggingface.co/spaces/ucaslcl/GOT_online


 

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

 

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

 

 

Funktionsliste

  • Klartext-Erkennung: Erkennen von Klartextinhalten in Bildern.
  • Erkennung von formatiertem Text: Erkennt und speichert Formatierungsinformationen von Text, wie z. B. Tabellen, Absätze usw.
  • Feinkörnige OCR: Erkennen Sie feinen Text in Bildern und Text vor komplexen Hintergründen.
  • Multi-crop OCR: Unterstützt das mehrfache Ausschneiden eines Bildes und erkennt den Text in jedem ausgeschnittenen Bereich.
  • Mehrseitige OCR: Unterstützt die OCR von mehrseitigen Dokumenten.

 

 

Hilfe verwenden

Ablauf der Installation

  1. Klonen Sie den Projektcode:
    git klonen. https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. Erstellen und aktivieren Sie eine virtuelle Umgebung:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. Installieren Sie die Projektabhängigkeiten:
    pip install -e .
    
  4. Flash-Attention installieren:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

Gewinnung von GOT-Modellgewichten

Verwendung Prozess

  1. Eingabedaten vorbereiten: Legen Sie das Bild oder Dokument, das OCR-erfasst werden soll, in das angegebene Eingabeverzeichnis.
  2. Führen Sie das OCR-Modell aus:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --Typ ocr
    
  3. Ausgabe anzeigen: Der OCR-verarbeitete Text wird im angegebenen Ausgabeverzeichnis gespeichert und kann von den Benutzern nach Bedarf weiterverarbeitet werden.

Funktionen

  • Erkennung von KlartextErkennung und Ausgabe von gewöhnlichen Textinhalten in Bildern als reine Textdateien, geeignet für einfache Textextraktionsaufgaben.
  • Erkennung von formatiertem TextBeibehaltung von Formatierungsinformationen wie Tabellen, Absätzen usw. bei der Texterkennung für Szenarien, in denen die ursprüngliche Formatierung des Dokuments beibehalten werden muss.
  • Feinkörnige OCRErkennung von feinem Text in komplexen Hintergründen, geeignet für Szenen, die eine hochpräzise Textextraktion erfordern.
  • Multi-Crop OCRAusschnittserkennung: Schneidet das Bild mehrfach aus und erkennt den Text in jedem ausgeschnittenen Bereich; geeignet für Szenarien, die eine Erkennung von Bildern mit mehreren Bereichen erfordern.
  • Mehrseitige OCRUnterstützt OCR von mehrseitigen Dokumenten, geeignet für Szenarien, in denen lange Dokumente oder mehrseitige PDF-Dateien verarbeitet werden.

Mit den oben genannten Schritten können Benutzer das GOT-OCR2.0 Modell leicht installieren und für verschiedene OCR-Aufgaben verwenden. Das Modell bietet eine Vielzahl von Funktionsmodulen, die den OCR-Bedarf in verschiedenen Szenarien erfüllen können.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)