AI Personal Learning
und praktische Anleitung

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

Allgemeine Einführung

GOT-OCR2.0 ist ein von StepStar mitentwickeltes Open Source Optical Character Recognition (OCR)-Modell, das die OCR-Technologie durch ein einheitliches End-to-End-Modell in Richtung OCR-2.0 vorantreiben soll. Das Modell unterstützt eine breite Palette von OCR-Aufgaben, einschließlich der Erkennung von einfachem Text, formatiertem Text, feinkörniger OCR, Multi-Crop OCR und mehrseitiger OCR. GOT-OCR2.0 wurde mit dem Ziel entwickelt, eine vielseitige und effiziente Lösung für eine breite Palette komplexer OCR-Anwendungsszenarien zu bieten.

Basierend auf dem QWen2 0.5 B Modell. Das OCR 2.0 genannte End-to-End-OCR-Modell mit 580 Mio. Parametern erreichte einen BLEU-Wert von 0,972. Adresse für Online-Erfahrungen: https://huggingface.co/spaces/ucaslcl/GOT_online


 

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

 

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

 

 

Funktionsliste

  • Klartext-Erkennung: Erkennen von Klartextinhalten in Bildern.
  • Erkennung von formatiertem Text: Erkennt und speichert Formatierungsinformationen von Text, wie z. B. Tabellen, Absätze usw.
  • Feinkörnige OCR: Erkennen Sie feinen Text in Bildern und Text vor komplexen Hintergründen.
  • Multi-crop OCR: Unterstützt das mehrfache Ausschneiden eines Bildes und erkennt den Text in jedem ausgeschnittenen Bereich.
  • Mehrseitige OCR: Unterstützt die OCR von mehrseitigen Dokumenten.

 

 

Hilfe verwenden

Ablauf der Installation

  1. Klonen Sie den Projektcode:
    git klonen. https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. Erstellen und aktivieren Sie eine virtuelle Umgebung:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. Installieren Sie die Projektabhängigkeiten:
    pip install -e .
    
  4. Flash-Attention installieren:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

Gewinnung von GOT-Modellgewichten

Verwendung Prozess

  1. Eingabedaten vorbereiten: Legen Sie das Bild oder Dokument, das OCR-erfasst werden soll, in das angegebene Eingabeverzeichnis.
  2. Führen Sie das OCR-Modell aus:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --Typ ocr
    
  3. Ausgabe anzeigen: Der OCR-verarbeitete Text wird im angegebenen Ausgabeverzeichnis gespeichert und kann von den Benutzern nach Bedarf weiterverarbeitet werden.

Funktionen

  • Erkennung von KlartextErkennung und Ausgabe von gewöhnlichen Textinhalten in Bildern als reine Textdateien, geeignet für einfache Textextraktionsaufgaben.
  • Erkennung von formatiertem TextBeibehaltung von Formatierungsinformationen wie Tabellen, Absätzen usw. bei der Texterkennung für Szenarien, in denen die ursprüngliche Formatierung des Dokuments beibehalten werden muss.
  • Feinkörnige OCRErkennung von feinem Text in komplexen Hintergründen, geeignet für Szenen, die eine hochpräzise Textextraktion erfordern.
  • Multi-Crop OCRAusschnittserkennung: Schneidet das Bild mehrfach aus und erkennt den Text in jedem ausgeschnittenen Bereich; geeignet für Szenarien, die eine Erkennung von Bildern mit mehreren Bereichen erfordern.
  • Mehrseitige OCRUnterstützt OCR von mehrseitigen Dokumenten, geeignet für Szenarien, in denen lange Dokumente oder mehrseitige PDF-Dateien verarbeitet werden.

Mit den oben genannten Schritten können Benutzer das GOT-OCR2.0 Modell leicht installieren und für verschiedene OCR-Aufgaben verwenden. Das Modell bietet eine Vielzahl von Funktionsmodulen, die den OCR-Bedarf in verschiedenen Szenarien erfüllen können.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)