Allgemeine Einführung
GOT-OCR2.0 ist ein von StepStar mitentwickeltes Open Source Optical Character Recognition (OCR)-Modell, das die OCR-Technologie durch ein einheitliches End-to-End-Modell in Richtung OCR-2.0 vorantreiben soll. Das Modell unterstützt eine breite Palette von OCR-Aufgaben, einschließlich der Erkennung von einfachem Text, formatiertem Text, feinkörniger OCR, Multi-Crop OCR und mehrseitiger OCR. GOT-OCR2.0 wurde mit dem Ziel entwickelt, eine vielseitige und effiziente Lösung für eine breite Palette komplexer OCR-Anwendungsszenarien zu bieten.
Basierend auf dem QWen2 0.5 B Modell. Das OCR 2.0 genannte End-to-End-OCR-Modell mit 580 Mio. Parametern erreichte einen BLEU-Wert von 0,972. Adresse für Online-Erfahrungen: https://huggingface.co/spaces/ucaslcl/GOT_online
Funktionsliste
- Klartext-Erkennung: Erkennen von Klartextinhalten in Bildern.
- Erkennung von formatiertem Text: Erkennt und speichert Formatierungsinformationen von Text, wie z. B. Tabellen, Absätze usw.
- Feinkörnige OCR: Erkennen Sie feinen Text in Bildern und Text vor komplexen Hintergründen.
- Multi-crop OCR: Unterstützt das mehrfache Ausschneiden eines Bildes und erkennt den Text in jedem ausgeschnittenen Bereich.
- Mehrseitige OCR: Unterstützt die OCR von mehrseitigen Dokumenten.
Hilfe verwenden
Ablauf der Installation
- Klonen Sie den Projektcode:
git klonen. https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- Erstellen und aktivieren Sie eine virtuelle Umgebung:
conda create -n got python=3.10 -y conda activate got
- Installieren Sie die Projektabhängigkeiten:
pip install -e .
- Flash-Attention installieren:
pip install ninja pip install flash-attn --no-build-isolation
Gewinnung von GOT-Modellgewichten
- Umarmungsgesicht
- Google Drive
- Baidu-Wolke(Extraktionscode: OCR2)
Verwendung Prozess
- Eingabedaten vorbereiten: Legen Sie das Bild oder Dokument, das OCR-erfasst werden soll, in das angegebene Eingabeverzeichnis.
- Führen Sie das OCR-Modell aus:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --Typ ocr
- Ausgabe anzeigen: Der OCR-verarbeitete Text wird im angegebenen Ausgabeverzeichnis gespeichert und kann von den Benutzern nach Bedarf weiterverarbeitet werden.
Funktionen
- Erkennung von KlartextErkennung und Ausgabe von gewöhnlichen Textinhalten in Bildern als reine Textdateien, geeignet für einfache Textextraktionsaufgaben.
- Erkennung von formatiertem TextBeibehaltung von Formatierungsinformationen wie Tabellen, Absätzen usw. bei der Texterkennung für Szenarien, in denen die ursprüngliche Formatierung des Dokuments beibehalten werden muss.
- Feinkörnige OCRErkennung von feinem Text in komplexen Hintergründen, geeignet für Szenen, die eine hochpräzise Textextraktion erfordern.
- Multi-Crop OCRAusschnittserkennung: Schneidet das Bild mehrfach aus und erkennt den Text in jedem ausgeschnittenen Bereich; geeignet für Szenarien, die eine Erkennung von Bildern mit mehreren Bereichen erfordern.
- Mehrseitige OCRUnterstützt OCR von mehrseitigen Dokumenten, geeignet für Szenarien, in denen lange Dokumente oder mehrseitige PDF-Dateien verarbeitet werden.
Mit den oben genannten Schritten können Benutzer das GOT-OCR2.0 Modell leicht installieren und für verschiedene OCR-Aufgaben verwenden. Das Modell bietet eine Vielzahl von Funktionsmodulen, die den OCR-Bedarf in verschiedenen Szenarien erfüllen können.