GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End Multimodal OCR Model-Chief AI Sharing Circle

🚀 DeepSeek verzögert? Diese Seite ist kostenlos! Vollblütiger DeepSeek-R1, reibungslos und netzwerkfähig! Unbegrenzte Nutzung!

Allgemeine Einführung

GOT-OCR2.0 ist ein von StepStar mitentwickeltes Open Source Optical Character Recognition (OCR)-Modell, das die OCR-Technologie durch ein einheitliches End-to-End-Modell in Richtung OCR-2.0 vorantreiben soll. Das Modell unterstützt eine breite Palette von OCR-Aufgaben, einschließlich der Erkennung von einfachem Text, formatiertem Text, feinkörniger OCR, Multi-Crop OCR und mehrseitiger OCR. GOT-OCR2.0 wurde mit dem Ziel entwickelt, eine vielseitige und effiziente Lösung für eine breite Palette komplexer OCR-Anwendungsszenarien zu bieten.

Basierend auf dem QWen2 0.5 B Modell. Das OCR 2.0 genannte End-to-End-OCR-Modell mit 580 Mio. Parametern erreichte einen BLEU-Wert von 0,972. Adresse für Online-Erfahrungen: https://huggingface.co/spaces/ucaslcl/GOT_online

Funktionsliste

Klartext-Erkennung: Erkennen von Klartextinhalten in Bildern.
Erkennung von formatiertem Text: Erkennt und speichert Formatierungsinformationen von Text, wie z. B. Tabellen, Absätze usw.
Feinkörnige OCR: Erkennen Sie feinen Text in Bildern und Text vor komplexen Hintergründen.
Multi-crop OCR: Unterstützt das mehrfache Ausschneiden eines Bildes und erkennt den Text in jedem ausgeschnittenen Bereich.
Mehrseitige OCR: Unterstützt die OCR von mehrseitigen Dokumenten.

Hilfe verwenden

Ablauf der Installation

Klonen Sie den Projektcode:

git klonen. https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

Erstellen und aktivieren Sie eine virtuelle Umgebung:

conda create -n got python=3.10 -y
conda activate got

Installieren Sie die Projektabhängigkeiten:
```
pip install -e .
```

Flash-Attention installieren:

pip install ninja
pip install flash-attn --no-build-isolation

Gewinnung von GOT-Modellgewichten

Umarmungsgesicht
Google Drive
Baidu-Wolke(Extraktionscode: OCR2)

Verwendung Prozess

Eingabedaten vorbereiten: Legen Sie das Bild oder Dokument, das OCR-erfasst werden soll, in das angegebene Eingabeverzeichnis.

Führen Sie das OCR-Modell aus:

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --Typ ocr

Ausgabe anzeigen: Der OCR-verarbeitete Text wird im angegebenen Ausgabeverzeichnis gespeichert und kann von den Benutzern nach Bedarf weiterverarbeitet werden.

Funktionen

Erkennung von KlartextErkennung und Ausgabe von gewöhnlichen Textinhalten in Bildern als reine Textdateien, geeignet für einfache Textextraktionsaufgaben.
Erkennung von formatiertem TextBeibehaltung von Formatierungsinformationen wie Tabellen, Absätzen usw. bei der Texterkennung für Szenarien, in denen die ursprüngliche Formatierung des Dokuments beibehalten werden muss.
Feinkörnige OCRErkennung von feinem Text in komplexen Hintergründen, geeignet für Szenen, die eine hochpräzise Textextraktion erfordern.
Multi-Crop OCRAusschnittserkennung: Schneidet das Bild mehrfach aus und erkennt den Text in jedem ausgeschnittenen Bereich; geeignet für Szenarien, die eine Erkennung von Bildern mit mehreren Bereichen erfordern.
Mehrseitige OCRUnterstützt OCR von mehrseitigen Dokumenten, geeignet für Szenarien, in denen lange Dokumente oder mehrseitige PDF-Dateien verarbeitet werden.

Mit den oben genannten Schritten können Benutzer das GOT-OCR2.0 Modell leicht installieren und für verschiedene OCR-Aufgaben verwenden. Das Modell bietet eine Vielzahl von Funktionsmodulen, die den OCR-Bedarf in verschiedenen Szenarien erfüllen können.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns

GOT-OCR2.0: Basierend auf QWen2 0.5B End-to-End multimodales OCR-Modell

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Ablauf der Installation

Gewinnung von GOT-Modellgewichten

Verwendung Prozess

Funktionen

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis