Ausführliche Bestandsaufnahme der OCR-Open-Source-Projekte: Die 10 wichtigsten Projekte, die Sie 2025 nicht verpassen sollten

AI-NachrichtenGeschrieben vor 6 Monaten AI-Austauschkreis

18.3K 00

Die OCR-Technologie ist in der Lage, Textinformationen in einem Bild in bearbeitbare und verarbeitbare Textdaten umzuwandeln. Einfach ausgedrückt: Sie erkennt und extrahiert Text aus Bildern.

Als Nächstes werden wir die 10 OCR-Open-Source-Projekte mit der höchsten Anzahl von Sternen auf GitHub überprüfen, um Ihnen einen umfassenden Leitfaden für die Auswahl eines OCR-Tools an die Hand zu geben.

01 GOT-OCR 2.0: durchgängiges multimodales OCR-Modell

GOT-OCR 2.0 ist ein quelloffenes, durchgängig multimodales OCR-Modell mit einer Modellgröße von nur 1,43 GB. Es erkennt und extrahiert nicht nur Text, sondern verarbeitet auchMathematische Formeln, Molekularformeln, Diagramme, Noten, geometrische Formenund viele andere, wodurch sich der Anwendungsbereich der OCR-Technologie erheblich erweitert hat.

Eigenschaften des Modells:

Multimodale Unterstützung: Neben normalem Text kann es auch eine breite Palette komplexer Inhalte verarbeiten.
Leichte Modelle: Das Modell hat eine Größe von nur 1,43 GB und ist daher leicht zu implementieren.
End-to-End-Identifizierung: Komplexe Vor- und Nachbearbeitungsprozesse sind nicht erforderlich.

Vorteil: GOT-OCR 2.0 hat offensichtliche Vorteile bei der Handhabung komplexer Szenarien und diversifizierter Inhalte und eignet sich für Anwendungsszenarien, in denen mehrere Arten von Dokumenten verarbeitet werden müssen.

Es hat derzeit 7.2K Sterne auf GitHub!

开源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: ein leistungsstarkes multimodales Open-Source-Modell

InternVL ist ein vom OpenGVLab-Team entwickeltes, quelloffenes multimodales Makromodell, das eine gute Annäherung an GPT-4V und Zwillinge Eine Alternative zur Leistung kommerzieller Modelle wie Pro.

Obwohl InternVL gehört zu den großen visuellen Modell, die Anwendung Szene ist umfangreicher, wie Bild Verständnis, nicht das vertikale Modell der OCR-Bereich, aber es kann rückwärts kompatibel mit der OCR-Extraktion des Textes der Szene. Es gibt viele ausgezeichnete Open-Source-Visual-Modelle, dieser Artikel listet sie nicht alle auf, nur um InternVL als Beispiel.

Eigenschaften des Modells:

Multimodale Fähigkeiten: Unterstützt eine breite Palette von Aufgaben wie Bildverständnis und visuelle Quizze.
Hohe Leistung: Annäherung an die Leistungsfähigkeit der kommerziellen Modelle.
Offene Quelle Offen: Bequem für Entwickler für sekundäre Entwicklung und Anpassung.

Vorteil: InternVL hat als visuelles Makromodell Vorteile bei der Verarbeitung komplexer Bilder und dem Verständnis von Bildinhalten und erfüllt auch die grundlegenden Anforderungen der OCR.

Es hat bisher 7,2K Sterne erhalten.

开源地址：https://github.com/OpenGVLab/InternVL

03 olmOCR: Der Experte für die Strukturierung von PDF-Dokumenten

olmOCR wird von AllenAI entwickelt und konzentriert sich auf Linearisierung von PDF-DokumentenEin Toolkit, das komplex gestaltete PDFs in strukturierten Text umwandelt, der für das Training von Large Language Modelling (LLM) geeignet ist.

Sein Hauptziel ist es, kohärente Textdaten zu erzeugen, indem PDF-Probleme wie gemischter Text und Grafiken, mehrspaltiges Layout usw. effizient behandelt werden, und die Fähigkeit des LLM zu verbessern, Dokumente in realen Szenarien zu verstehen.

Technische Einzelheiten:

Layout-Analyse: Genaue Erkennung mehrspaltiger Layouts von Text, Bildern, Tabellen usw. in PDF.
Textlinearisierung: Konvertieren Sie komplexe Layouts in lineare Textfolgen, die sich für die LLM-Verarbeitung eignen.
Inhaltliche Neuordnung: Lösen Sie Probleme, wie z. B. seiten- oder spaltenübergreifend, um die Kohärenz des Textes zu gewährleisten.

Anwendungsszenarien:

Analyse von akademischen Arbeiten: Extrahieren Sie schnell die wichtigsten Informationen aus Ihrem Papier.
Bearbeitung juristischer Dokumente: Strukturierte Extraktion von Dokumenteninhalten wie Verträgen, Urteilen usw.
Analyse der Jahresabschlüsse: Automatisierte Extraktion von Finanzdaten und Schlüsselkennzahlen.

Erforderliche Konfiguration ist ein aktueller NVIDIA-Grafikprozessor (getestet mit RTX 4090, L40S, A100, H100) mit mindestens 20 GB GPU-RAM und 30 GB verfügbarem Speicherplatz.

Es hat bis jetzt 9,8K Sterne erhalten!

开源地址：https://github.com/allenai/olmocr
在线演示：https://olmocr.allenai.org/

04 Zerox: KI-gesteuertes Tool zur Konvertierung strukturierter Dokumente

Zerox Es ist ein KI-gesteuertes Dokumentenextraktionstool, das vom Omni-AI-Team entwickelt wurde und Dokumente im PDF-, Bild-, Docx-Format usw. in strukturierte Markdown-Dateien umwandelt.

Vorteil:

Keine Ausbildung erforderlich: Im Gegensatz zu herkömmlichen OCR-Tools kann Zerox komplexe Layouts verarbeiten, ohne dass das Modell im Voraus trainiert werden muss.
Direkte Generierung von strukturierten Inhalten: OCR auf der Grundlage eines visuellen Modells (z. B. GPT-4o-mini) implementieren und direkt strukturierte Inhalte erzeugen.
Behalten Sie die logische Struktur bei: Erkennen Sie das spaltenförmige Layout akademischer Arbeiten, Codeblöcke in technischen Dokumenten, Vertragsformulare, Formeln für Prüfungsarbeiten usw. und erzeugen Sie ein sauberes Markdown.
Vergleich mit herkömmlicher OCR Zerox überspringt die traditionellen Schritte der Layout-Analyse, der Reduzierung der Tabellenstruktur usw. und gibt die Ergebnisse direkt in Markdown aus.

Derzeit 10,3K Star!

开源地址：https://github.com/getomni-ai/zerox
体验地址：https://getomni.ai/ocr-demo

05 Surya: Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen

Surya Der Schwerpunkt liegt auf der Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen, mit besonderer Expertise in der Tabellenerkennung.

Schlüsselwörter: Texterkennung auf Zeilenebene, Layout-Analyse (Erkennung von Tabellen, Bildern, Bildunterschriften usw.), Erkennung der Lesereihenfolge, Tabellenerkennung (Erkennung von Zeilen/Spalten), LaTeX OCR

Wesentliche Merkmale:

Mehrsprachige Unterstützung: Unterstützung von mehr als 90 Sprachen, einschließlich komplexer Schriften wie Chinesisch, Japanisch und Arabisch sowie gängiger Sprachen wie Englisch und Spanisch, für die Dokumentenverarbeitung in globalisierten Szenarien.
Optimierung der Formerkennung: Kann die Zeilen-, Spalten- und Zellenstruktur der Tabelle genau erkennen, einschließlich der Drehung oder des komplexen Layouts der Tabelle, und ist damit leistungsfähiger als die gängigen Open-Source-Modelle (wie Table Transformer).
Komplexes Parsen von Dokumenten: Es kann Titel, Bilder, Absätze und andere Elemente im Dokument erkennen und die Lesereihenfolge intelligent beurteilen, um Verwirrung bei der Ausgabe des Inhalts zu vermeiden.

Beispiel für ein Anwendungsszenario:

Digitalisierung von mehrsprachigen Dokumenten: Mehrsprachige Verträge, Berichte usw. werden von multinationalen Unternehmen bearbeitet.
Digitalisierung von historischen Archiven: Umgang mit historischen Dokumenten, die komplexe Tabellen und Layouts enthalten.
Wissenschaftliche Datenextraktion: Extrahieren von tabellarischen Daten aus wissenschaftlichen Arbeiten.

Surya unterstützt CPU-/GPU-Betrieb und verbessert die Erkennungsgeschwindigkeit durch Stapelverarbeitung und Optimierungen der Bildvorverarbeitung (z.B. Entrauschen, Grauskalierung) für die Anforderungen der Dokumentendigitalisierung auf Unternehmensebene erheblich.

Es hat derzeit 16,8K Sterne auf GitHub!

开源地址：https://github.com/VikParuchuri/surya

06 OCRmyPDF: Hinzufügen einer durchsuchbaren Textebene zu gescannten PDFs

Dieses Open-Source-Tool wurde für gescannte PDF-Dokumente (d.h. PDF besteht nur aus Bildern, Bilder im Text können nicht kopiert werden) entwickelt, um eine durchsuchbare, kopierbare Textebene hinzuzufügen.

Anwendungsszenarien:

Digitalisierung von Archiven: Konvertieren Sie gescannte Papierdokumente in durchsuchbare PDF-Dateien.
Zugänglichkeit: Zugängliche PDF-Dokumente für sehbehinderte Menschen.
Information Retrieval: Einfaches Auffinden von Informationen aus einer großen Anzahl von gescannten Dokumenten.

Vorteil:

Präzise Identifizierung: Unterstützung für mehr als 100 Sprachen mit der Tesseract OCR-Engine.
Bild-Optimierung: Korrigiert automatisch schiefe und falsch gedrehte Seiten, um die Erkennungsrate zu verbessern.
Stapelverarbeitung: Effiziente Verarbeitung tausender Seiten von Dokumenten mit Multi-Core-CPU-Beschleunigung.

OCRmyPDF hat einen klaren Vorteil bei der Verarbeitung gescannter PDFs, ist einfach zu installieren und zu verwenden und ist mit Linux, Windows, macOS und Docker kompatibel, was eine bequemere Lösung darstellt als andere Tools, die eine manuelle Verarbeitung gescannter Dokumente erfordern.

Derzeit hat es 20,7K Sterne auf GitHub!

Beim Öffnen von bildbasierten PDF-Dateien können Sie feststellen, dass der Text auf dem Bild nicht kopiert und durchsucht werden kann. OCRmyPDF kann die OCR-Textebene unter dem Bild einbetten und unterstützt so hochpräzises Kopieren und Suchen.

开源地址：https://github.com/ocrmypdf/OCRmyPDF
接入文档：https://ocrmypdf.readthedocs.io/en/latest/

07 Marker: Konvertierung von PDF, Bildern und anderen Multiformat-Dokumenten

Markierung Es ist ein effizientes Dokumentenkonvertierungstool, das von Vik Paruchuri entwickelt wurde und PDF, Bilder, Office-Dokumente und EPUB-Formate schnell in Markdown, JSON oder HTML konvertieren kann.

Vorteil: Markierung Es zeichnet sich beim Parsen komplexer Inhalte (z. B. Tabellen, mathematische Formeln, Codeblöcke) mit hoher Genauigkeit und ausgezeichneter Verarbeitungsgeschwindigkeit aus, unterstützt GPU-Beschleunigung und übertrifft vergleichbare Cloud-Dienste (z. B. Llamaparse, Mathpix).

Anwendungen:

Umwandlung akademischer Papiere: Konvertieren Sie PDF-Dokumente in Markdown, um sie leichter bearbeiten und zitieren zu können.
Erstellung technischer Dokumentation: Konvertieren Sie Dokumente mit Code und Diagrammen in ein einfach zu veröffentlichendes HTML-Format.
Datenextraktion: Extrahieren von Tabellen- und Formulardaten in das JSON-Format zur einfachen Weiterverarbeitung.

Marker kann auf umfangreiche Sprachmodelle (z. B. Gemini, Ollama) zurückgreifen, um Ergebnisse wie seitenübergreifende Tabellenzusammenführung, Formelformatierung und Formulardatenextraktion zu optimieren.

Es hat derzeit 22,8K Sterne auf GitHub.

开源地址：https://github.com/vikParuchuri/marker

08 EasyOCR: eine Bibliothek mit mehrsprachigen Texterkennungswerkzeugen

EasyOCR Es handelt sich um eine von JaidedAI entwickelte Open-Source-OCR-Werkzeugbibliothek, die ein Bild eingibt und den extrahierten Text, die Koordinaten der entsprechenden Stelle und den Konfidenzgrad zurückgibt.

Merkmale:

Mehrsprachige Unterstützung: Unterstützung für mehr als 80 Sprachen und mehrere Schriftsysteme (z. B. Chinesisch, Latein, Arabisch).
Sofort einsatzbereit: Bietet vorgefertigte Modelle für einen schnellen Einsatz ohne zusätzliche Schulungen.
Flexible Eingabe: Unterstützt mehrere Eingabeformen wie Bilder, Byte-Streams, URLs usw.
Einfachheit API: Ausgabe von Textinhalt, Position und Vertraulichkeit über eine übersichtliche API.
CPU/GPU-kompatibel: Die Betriebsumgebung kann je nach Hardwarebedingungen flexibel gewählt werden.

Modellausbildung: EasyOCR basiert auf dem PyTorch Deep Learning Framework und verwendet eine CRNN (Convolutional Recurrent Neural Network) Modellstruktur in Kombination mit einer CTC (Connectionist Temporal Classification) Verlustfunktion für das Training.

Anwendungsszenarien:

Erkennung mehrsprachiger Dokumente: Ideal für die Arbeit mit Dokumenten, die mehrere Sprachen enthalten.
Erkennung von Text in natürlichen Szenen: Es kann verwendet werden, um Text in natürlichen Szenen wie Straßenschildern und Nummernschildern zu erkennen.
Mobile OCR: Das Modell ist leicht und eignet sich für den Einsatz am Handy.

EasyOCR vereint Entwicklerfreundlichkeit und industrielle Anwendungsanforderungen für OCR-Szenarien wie mehrsprachige Dokumente und natürlichen Szenentext.

Es hat derzeit 26K Sterne auf GitHub.

开源地址：https://github.com/JaidedAI/EasyOCR
Demo 地址：https://www.jaided.ai/documentai/demo

09 Umi-OCR: Offline-OCR-Software, die sofort installiert wird und funktioniert

Es handelt sich um eine kostenlose, quelloffene Offline-OCR-Texterkennungssoftware, die Windows 7+ x64 und Linux x64 unterstützt, kein Netzwerk benötigt und lokal ausgeführt werden kann.

Schlüsselwörter: lokale Software entpacken und offline ausführen; Screenshot OCR; Batch OCR;

Vorteil:

Läuft offline: Zum Schutz der Privatsphäre der Benutzer ist keine Internetverbindung erforderlich.
Einfach zu bedienen: Bietet eine grafische Oberfläche für eine einfache Bedienung.
Reich an Funktionen: Unterstützt Screenshot-OCR, Batch-OCR und viele andere Funktionen.
Vergleichen Sie dies mit anderen Offline-Tools: Einfache Installation und keine Notwendigkeit, die Betriebsumgebung zu konfigurieren.

Bislang hat es 30,8K Sterne erhalten.

开源地址：https://github.com/hiroi-sora/Umi-OCR

10 Tesseract: Uralte Götter des OCR-Feldes

Tesserakt ist eine leistungsstarke und weit verbreitete Open-Source-OCR-Engine, die Text in Bildern in bearbeitbaren Text umwandelt.

Historischer Kontext:

Entwickelt von Hewlett-Packard Laboratories zwischen 1985 und 1994.
Nach 1996 wurde es auf Windows portiert.
HP stellte es 2005 als Open Source zur Verfügung.
Es wird von Google gesponsert und ist eines der bekannteren Open-Source-OCR-Systeme.

Technische Merkmale:

Techniken des tiefen Lernens: Die Zeichenerkennung mit fortgeschrittenen Deep-Learning-Techniken (z. B. Faltungsneuronale Netze) ist sehr genau und erbringt gute Leistungen, insbesondere bei gescannten Bildern besserer Qualität.
Mehrsprachige Unterstützung: Texterkennung in über 100 Sprachen.

Vergleichen Sie es mit anderen Motoren: Tesseract hat eine lange Geschichte, eine aktive Gemeinschaft und ist gut dokumentiert, aber möglicherweise nicht so gut wie einige der aufkommenden OCR-Engines im Umgang mit komplexen Layouts und Bildern niedriger Qualität.

Es gibt auch eine JavaScript-Version von Tesseract OCR: Tesseract.js, aber beim Testen hat sich herausgestellt, dass die JS-Version Chinesisch nicht sehr gut unterstützt.

Es hat bisher 65,3K Sterne auf GitHub erhalten.

开源地址：https://github.com/tesseract-ocr/tesseract
开源地址：https://github.com/naptha/tesseract.js

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

AI-Nachrichten

vor 7 Monaten

012.7K

Nvidia 最新推出的 AI 聊天机器人能在你的个人电脑上独立运作，而且完全免费。

Der neueste KI-Chatbot von Nvidia arbeitet unabhängig auf Ihrem PC und ist völlig kostenlos.

AI-Nachrichten

vor 1 Jahr

015.1K

Bard's neuestes Update: Globale Einführung von Gemini Pro und Unterstützung für die Erstellung von Bildern

AI-Nachrichten

vor 1 Jahr

013.2K

FLUX.1 官方发布的图像编辑套件，覆盖：修复、扩展、提取深度图、提取Canny、混合图像风格

FLUX.1 Offiziell freigegebenes Bildbearbeitungsprogramm mit folgenden Funktionen: Reparieren, Erweitern, Tiefenkarte extrahieren, Canny extrahieren, Bildstile mischen

AI-Nachrichten

vor 10 Monaten

016.9K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Ausführliche Bestandsaufnahme der OCR-Open-Source-Projekte: Die 10 wichtigsten Projekte, die Sie 2025 nicht verpassen sollten

01 GOT-OCR 2.0: durchgängiges multimodales OCR-Modell

02 InternVL: ein leistungsstarkes multimodales Open-Source-Modell

03 olmOCR: Der Experte für die Strukturierung von PDF-Dokumenten

04 Zerox: KI-gesteuertes Tool zur Konvertierung strukturierter Dokumente

05 Surya: Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen

06 OCRmyPDF: Hinzufügen einer durchsuchbaren Textebene zu gescannten PDFs

07 Marker: Konvertierung von PDF, Bildern und anderen Multiformat-Dokumenten

08 EasyOCR: eine Bibliothek mit mehrsprachigen Texterkennungswerkzeugen

09 Umi-OCR: Offline-OCR-Software, die sofort installiert wird und funktioniert

10 Tesseract: Uralte Götter des OCR-Feldes

Geminis verspätetes "Canvas"-Feature, erleben Sie, was es kann!

Dify v1.1.0 Neuer Smart Filter "Metadaten" für die Wissensdatenbank

Ähnliche Artikel

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

Der neueste KI-Chatbot von Nvidia arbeitet unabhängig auf Ihrem PC und ist völlig kostenlos.

Bard's neuestes Update: Globale Einführung von Gemini Pro und Unterstützung für die Erstellung von Bildern

FLUX.1 Offiziell freigegebenes Bildbearbeitungsprogramm mit folgenden Funktionen: Reparieren, Erweitern, Tiefenkarte extrahieren, Canny extrahieren, Bildstile mischen

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Ausführliche Bestandsaufnahme der OCR-Open-Source-Projekte: Die 10 wichtigsten Projekte, die Sie 2025 nicht verpassen sollten

01 GOT-OCR 2.0: durchgängiges multimodales OCR-Modell

02 InternVL: ein leistungsstarkes multimodales Open-Source-Modell

03 olmOCR: Der Experte für die Strukturierung von PDF-Dokumenten

04 Zerox: KI-gesteuertes Tool zur Konvertierung strukturierter Dokumente

05 Surya: Erkennung mehrsprachiger Texte und komplexer Dokumentstrukturen

06 OCRmyPDF: Hinzufügen einer durchsuchbaren Textebene zu gescannten PDFs

07 Marker: Konvertierung von PDF, Bildern und anderen Multiformat-Dokumenten

08 EasyOCR: eine Bibliothek mit mehrsprachigen Texterkennungswerkzeugen

09 Umi-OCR: Offline-OCR-Software, die sofort installiert wird und funktioniert

10 Tesseract: Uralte Götter des OCR-Feldes

Geminis verspätetes "Canvas"-Feature, erleben Sie, was es kann!

Dify v1.1.0 Neuer Smart Filter "Metadaten" für die Wissensdatenbank

Ähnliche Artikel

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

Der neueste KI-Chatbot von Nvidia arbeitet unabhängig auf Ihrem PC und ist völlig kostenlos.

Bard's neuestes Update: Globale Einführung von Gemini Pro und Unterstützung für die Erstellung von Bildern

FLUX.1 Offiziell freigegebenes Bildbearbeitungsprogramm mit folgenden Funktionen: Reparieren, Erweitern, Tiefenkarte extrahieren, Canny extrahieren, Bildstile mischen

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel