AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Ausführliche Bestandsaufnahme der OCR-Open-Source-Projekte: Die 10 wichtigsten Projekte, die Sie 2025 nicht verpassen sollten

Die OCR-Technologie ist in der Lage, Textinformationen in einem Bild in bearbeitbare und verarbeitbare Textdaten umzuwandeln. Einfach ausgedrückt: Sie erkennt und extrahiert Text aus Bildern.

Als Nächstes werden wir die 10 wichtigsten OCR-Open-Source-Projekte auf GitHub überprüfen, um Ihnen einen umfassenden Leitfaden für die Auswahl eines OCR-Tools an die Hand zu geben.

01 GOT-OCR 2.0: durchgängiges multimodales OCR-Modell

GOT-OCR 2.0 ist ein quelloffenes, durchgängig multimodales OCR-Modell mit einer Modellgröße von nur 1,43 GB. Es erkennt und extrahiert nicht nur Text, sondern verarbeitet auchMathematische Formeln, Molekularformeln, Diagramme, Noten, geometrische Formenund viele andere, wodurch sich der Anwendungsbereich der OCR-Technologie erheblich erweitert hat.


Eigenschaften des Modells:

  • Multimodale Unterstützung: Neben normalem Text kann es auch eine breite Palette komplexer Inhalte verarbeiten.
  • Leichte Modelle: Das Modell hat eine Größe von nur 1,43 GB und ist daher leicht zu implementieren.
  • End-to-End-Identifizierung: Komplexe Vor- und Nachbearbeitungsprozesse sind nicht erforderlich.

Vorteil: GOT-OCR 2.0 hat offensichtliche Vorteile bei der Handhabung komplexer Szenarien und diversifizierter Inhalte und eignet sich für Anwendungsszenarien, in denen mehrere Arten von Dokumenten verarbeitet werden müssen.

Es hat derzeit 7.2K Sterne auf GitHub!

blank

Adresse der offenen Quelle: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: ein leistungsstarkes multimodales Open-Source-Modell

InternVL ist ein vom OpenGVLab-Team entwickeltes, quelloffenes multimodales Makromodell, das eine gute Annäherung an GPT-4V und Zwillinge Eine Alternative zur Leistung kommerzieller Modelle wie Pro.

Obwohl InternVL gehört zu den großen visuellen Modell, die Anwendung Szene ist umfangreicher, wie Bild Verständnis, nicht das vertikale Modell der OCR-Bereich, aber es kann rückwärts kompatibel mit der OCR-Extraktion des Textes der Szene. Es gibt viele ausgezeichnete Open-Source-Visual-Modelle, dieser Artikel listet sie nicht alle auf, nur um InternVL als Beispiel.

Eigenschaften des Modells:

  • Multimodale Fähigkeiten: Unterstützt eine breite Palette von Aufgaben wie Bildverständnis und visuelle Quizze.
  • Hohe Leistung: Annäherung an die Leistungsfähigkeit der kommerziellen Modelle.
  • Offene Quelle offen: Bequem für Entwickler für sekundäre Entwicklung und Anpassung.

Vorteil: InternVL hat als visuelles Makromodell Vorteile bei der Verarbeitung komplexer Bilder und dem Verständnis von Bildinhalten und erfüllt auch die grundlegenden Anforderungen der OCR.

Es hat bisher 7,2K Sterne erhalten.

blank

Adresse der offenen Quelle: https://github.com/OpenGVLab/InternVL

03 olmOCR: Der Experte für die Strukturierung von PDF-Dokumenten

olmOCR wird von AllenAI entwickelt und konzentriert sich auf Linearisierung von PDF-DokumentenEin Toolkit, das komplex gestaltete PDFs in strukturierten Text umwandelt, der für das Training von Large Language Modelling (LLM) geeignet ist.

Sein Hauptziel ist es, kohärente Textdaten zu erzeugen, indem PDF-Probleme wie gemischter Text und Grafiken, mehrspaltiges Layout usw. effizient behandelt werden, und die Fähigkeit des LLM zu verbessern, Dokumente in realen Szenarien zu verstehen.

Technische Einzelheiten:

  • Layout-Analyse: Genaue Erkennung mehrspaltiger Layouts von Text, Bildern, Tabellen usw. in PDF.
  • Textlinearisierung: Konvertieren Sie komplexe Layouts in lineare Textfolgen, die sich für die LLM-Verarbeitung eignen.
  • Inhaltliche Neuordnung: Lösen Sie Probleme, wie z. B. seiten- oder spaltenübergreifend, um die Kohärenz des Textes zu gewährleisten.

Anwendungsszenarien:

  • Analyse von akademischen Arbeiten: Extrahieren Sie schnell die wichtigsten Informationen aus Ihrem Papier.
  • Bearbeitung juristischer Dokumente: Strukturierte Extraktion von Dokumenteninhalten wie Verträgen, Urteilen usw.
  • Analyse der Jahresabschlüsse: Automatisierte Extraktion von Finanzdaten und Schlüsselkennzahlen.

Erforderliche Konfiguration ist ein aktueller NVIDIA-Grafikprozessor (getestet mit RTX 4090, L40S, A100, H100) mit mindestens 20 GB GPU-RAM und 30 GB verfügbarem Speicherplatz.

Es hat bis jetzt 9,8K Sterne erhalten!

blank   blank

Quelloffene Adresse: https://github.com/allenai/olmocr
Online-Demo: https://olmocr.allenai.org/

04 Zerox: KI-gesteuertes Tool zur Konvertierung strukturierter Dokumente

Zerox Es ist ein KI-gesteuertes Dokumentenextraktionstool, das vom Omni-AI-Team entwickelt wurde und Dokumente im PDF-, Bild-, Docx-Format usw. in strukturierte Markdown-Dateien umwandelt.

Vorteil:

  • Keine Ausbildung erforderlich: Im Gegensatz zu herkömmlichen OCR-Tools kann Zerox komplexe Layouts verarbeiten, ohne das Modell vorher trainieren zu müssen.
  • Direkte Generierung von strukturierten Inhalten: OCR auf der Grundlage eines visuellen Modells (z. B. GPT-4o-mini) implementieren und direkt strukturierte Inhalte erzeugen.
  • Behalten Sie die logische Struktur bei: Erkennen Sie das spaltenförmige Layout akademischer Arbeiten, Codeblöcke in technischen Dokumenten, Vertragsformulare, Formeln für Prüfungsarbeiten usw. und erzeugen Sie ein sauberes Markdown.
  • Vergleich mit herkömmlicher OCR Zerox überspringt die traditionellen Schritte der Layout-Analyse, der Reduzierung der Tabellenstruktur usw. und gibt die Ergebnisse direkt in Markdown aus.

Derzeit 10,3K Star!

Foto

Adresse für offene Quellen: https://github.com/getomni-ai/zerox
Adresse für Erfahrungen: https://getomni.ai/ocr-demo

05 Surya: Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen

Surya Der Schwerpunkt liegt auf der Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen, mit besonderer Expertise in der Tabellenerkennung.

Schlüsselwörter: Texterkennung auf Zeilenebene, Layout-Analyse (Erkennung von Tabellen, Bildern, Bildunterschriften usw.), Erkennung der Lesereihenfolge, Tabellenerkennung (Erkennung von Zeilen/Spalten), LaTeX OCR

Wesentliche Merkmale:

  1. Mehrsprachige Unterstützung: Unterstützung von mehr als 90 Sprachen, einschließlich komplexer Schriften wie Chinesisch, Japanisch und Arabisch sowie gängiger Sprachen wie Englisch und Spanisch, wodurch es sich für die Dokumentenverarbeitung in globalisierten Szenarien eignet.
  2. Optimierung der Formerkennung: Kann die Zeilen-, Spalten- und Zellenstruktur der Tabelle genau erkennen, einschließlich der Drehung oder des komplexen Layouts der Tabelle, und ist damit leistungsfähiger als die gängigen Open-Source-Modelle (wie Table Transformer).
  3. Komplexes Parsen von Dokumenten: Es kann Titel, Bilder, Absätze und andere Elemente im Dokument erkennen und die Lesereihenfolge intelligent beurteilen, um eine Verwechslung des Ausgabeinhalts zu vermeiden.

Beispiel für ein Anwendungsszenario:

  • Digitalisierung von mehrsprachigen Dokumenten: Mehrsprachige Verträge, Berichte usw. werden von multinationalen Unternehmen bearbeitet.
  • Digitalisierung von historischen Archiven: Umgang mit historischen Dokumenten, die komplexe Tabellen und Layouts enthalten.
  • Wissenschaftliche Datenextraktion: Extrahieren von tabellarischen Daten aus wissenschaftlichen Arbeiten.

Surya unterstützt CPU-/GPU-Betrieb und verbessert die Erkennungsgeschwindigkeit durch Stapelverarbeitung und Optimierungen der Bildvorverarbeitung (z.B. Entrauschen, Grauskalierung) für die Anforderungen der Dokumentendigitalisierung auf Unternehmensebene erheblich.

Es hat derzeit 16,8K Sterne auf GitHub!

Foto   Foto

Adresse der offenen Quelle: https://github.com/VikParuchuri/surya

06 OCRmyPDF: Hinzufügen einer durchsuchbaren Textebene zu gescannten PDFs

Dieses Open-Source-Tool wurde für gescannte PDF-Dokumente (d.h. PDF besteht nur aus Bildern, Bilder im Text können nicht kopiert werden) entwickelt, um eine durchsuchbare, kopierbare Textebene hinzuzufügen.

Anwendungsszenarien:

  • Digitalisierung von Archiven: Konvertieren Sie gescannte Papierdokumente in durchsuchbare PDF-Dateien.
  • Zugänglichkeit: Zugängliche PDF-Dokumente für sehbehinderte Menschen.
  • Information Retrieval: Einfaches Auffinden von Informationen aus einer großen Anzahl von gescannten Dokumenten.

Vorteil:

  • Präzise Identifizierung: Unterstützung für mehr als 100 Sprachen mit der Tesseract OCR-Engine.
  • Bild-Optimierung: Korrigiert automatisch schiefe und falsch gedrehte Seiten, um die Erkennungsrate zu verbessern.
  • Stapelverarbeitung: Effiziente Verarbeitung tausender Seiten von Dokumenten mit Multi-Core-CPU-Beschleunigung.

OCRmyPDF hat einen klaren Vorteil bei der Verarbeitung von gescannten PDFs, ist einfach zu installieren und zu verwenden und ist mit Linux, Windows, macOS und Docker kompatibel, was eine bequemere Lösung als andere Tools darstellt, die eine manuelle Verarbeitung von gescannten Dokumenten erfordern.

Derzeit hat es 20,7K Sterne auf GitHub!

Beim Öffnen von bildbasierten PDF-Dateien können Sie feststellen, dass der Text auf dem Bild nicht kopiert und durchsucht werden kann. OCRmyPDF kann die OCR-Textebene unter dem Bild einbetten und unterstützt so hochpräzises Kopieren und Suchen.

Foto

Adresse der offenen Quelle: https://github.com/ocrmypdf/OCRmyPDF
Zugang zur Dokumentation: https://ocrmypdf.readthedocs.io/en/latest/

07 Marker: Konvertierung von PDF, Bildern und anderen Multiformat-Dokumenten

Markierung Es ist ein effizientes Dokumentenkonvertierungstool, das von Vik Paruchuri entwickelt wurde und PDF, Bilder, Office-Dokumente und EPUB-Formate schnell in Markdown, JSON oder HTML konvertieren kann.

Vorteil: Markierung Es zeichnet sich beim Parsen komplexer Inhalte (z. B. Tabellen, mathematische Formeln, Codeblöcke) mit hoher Genauigkeit und ausgezeichneter Verarbeitungsgeschwindigkeit aus, unterstützt GPU-Beschleunigung und übertrifft vergleichbare Cloud-Dienste (z. B. Llamaparse, Mathpix).

Anwendungen:

  • Umwandlung akademischer Papiere: Konvertieren Sie PDF-Dokumente in Markdown, um sie leichter bearbeiten und zitieren zu können.
  • Erstellung technischer Dokumentation: Konvertieren Sie Dokumente mit Code und Diagrammen in ein einfach zu veröffentlichendes HTML-Format.
  • Datenextraktion: Extrahieren von Tabellen- und Formulardaten in das JSON-Format zur einfachen Weiterverarbeitung.

Marker kann auf umfangreiche Sprachmodelle (z. B. Gemini, Ollama) zurückgreifen, um Ergebnisse wie seitenübergreifende Tabellenzusammenführung, Formelformatierung und Formulardatenextraktion zu optimieren.

Es hat derzeit 22,8K Sterne auf GitHub.

blank

Adresse der offenen Quelle: https://github.com/vikParuchuri/marker

08 EasyOCR: eine Bibliothek mit mehrsprachigen Texterkennungswerkzeugen

EasyOCR Es handelt sich um eine von JaidedAI entwickelte Open-Source-OCR-Werkzeugbibliothek, die ein Bild eingibt und den extrahierten Text, die Koordinaten der entsprechenden Stelle und den Konfidenzgrad zurückgibt.

Merkmale:

  • Mehrsprachige Unterstützung: Unterstützung für mehr als 80 Sprachen und mehrere Schriftsysteme (z. B. Chinesisch, Latein, Arabisch).
  • Sofort einsatzbereit: Bietet vorgefertigte Modelle für den schnellen Einsatz ohne zusätzliche Schulungen.
  • Flexible Eingabe: Unterstützt mehrere Eingabeformen wie Bilder, Byte-Streams, URLs usw.
  • Einfachheit API: Ausgabe von Textinhalt, Position und Konfidenz über eine übersichtliche API.
  • CPU/GPU-kompatibel: Die Betriebsumgebung kann je nach Hardwarebedingungen flexibel gewählt werden.

Modellausbildung: EasyOCR basiert auf dem PyTorch Deep Learning Framework und verwendet eine CRNN (Convolutional Recurrent Neural Network) Modellstruktur in Kombination mit einer CTC (Connectionist Temporal Classification) Verlustfunktion für das Training.

Anwendungsszenarien:

  • Erkennung mehrsprachiger Dokumente: Ideal für die Arbeit mit Dokumenten, die mehrere Sprachen enthalten.
  • Erkennung von Text in natürlichen Szenen: Es kann verwendet werden, um Text in natürlichen Szenen wie Straßenschildern und Nummernschildern zu erkennen.
  • Mobile OCR: Das Modell ist leicht und eignet sich für den Einsatz am Handy.

EasyOCR vereint Entwicklerfreundlichkeit und industrielle Anwendungsanforderungen für OCR-Szenarien wie mehrsprachige Dokumente und natürlichen Szenentext.

Es hat derzeit 26K Sterne auf GitHub.

Beispiele   Beispiel 2   Beispiel 3

Adresse der offenen Quelle: https://github.com/JaidedAI/EasyOCR
Demo-Adresse: https://www.jaided.ai/documentai/demo

09 Umi-OCR: Offline-OCR-Software, die sofort installiert wird und funktioniert

Es handelt sich um eine kostenlose, quelloffene Offline-OCR-Texterkennungssoftware, die Windows 7+ x64 und Linux x64 unterstützt, kein Netzwerk benötigt und lokal ausgeführt werden kann.

Schlüsselwörter: lokale Software entpacken und offline ausführen; Screenshot OCR; Batch OCR;

Vorteil:

  • Läuft offline: Zum Schutz der Privatsphäre der Benutzer ist keine Internetverbindung erforderlich.
  • Einfach zu bedienen: Bietet eine grafische Oberfläche für eine einfache Bedienung.
  • Reich an Funktionen: Unterstützt Bildschirmkopie-OCR, Batch-OCR und viele andere Funktionen.
  • Vergleichen Sie dies mit anderen Offline-Tools: Die Installation ist einfach und die Betriebsumgebung muss nicht konfiguriert werden.

Bislang hat es 30,8K Sterne erhalten.

1-title-1.png   2-Bildschirmfoto-1.png   3-Batch-1.png

Adresse der offenen Quelle: https://github.com/hiroi-sora/Umi-OCR

10 Tesseract: Uralte Götter des OCR-Feldes

Tesserakt ist eine leistungsstarke und weit verbreitete Open-Source-OCR-Engine, die Text in Bildern in bearbeitbaren Text umwandelt.

Historischer Kontext:

  • Entwickelt von Hewlett-Packard Laboratories zwischen 1985 und 1994.
  • Nach 1996 wurde es auf Windows portiert.
  • HP hat es 2005 als Open Source veröffentlicht.
  • Es wird von Google gesponsert und ist eines der bekannteren Open-Source-OCR-Systeme.

Technische Merkmale:

  • Techniken des tiefen Lernens: Die Zeichenerkennung mit fortgeschrittenen Deep-Learning-Techniken (z. B. Faltungsneuronale Netze) ist sehr genau und erbringt gute Leistungen, insbesondere bei gescannten Bildern besserer Qualität.
  • Mehrsprachige Unterstützung: Texterkennung in über 100 Sprachen.

Vergleichen Sie es mit anderen Motoren: Tesseract hat eine lange Geschichte, eine aktive Gemeinschaft und ist gut dokumentiert, aber möglicherweise nicht so gut wie einige der aufkommenden OCR-Engines im Umgang mit komplexen Layouts und Bildern niedriger Qualität.

Es gibt auch eine JavaScript-Version von Tesseract OCR: Tesseract.js, aber beim Testen hat sich herausgestellt, dass die JS-Version Chinesisch nicht sehr gut unterstützt.

Es hat bisher 65,3K Sterne auf GitHub erhalten.

blank

Adresse der offenen Quelle: https://github.com/tesseract-ocr/tesseract
Adresse der offenen Quelle: https://github.com/naptha/tesseract.js

blank

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Ausführliche Bestandsaufnahme der OCR-Open-Source-Projekte: Die 10 wichtigsten Projekte, die Sie 2025 nicht verpassen sollten
de_DE_formalDeutsch (Sie)