AI Personal Learning
und praktische Anleitung

Surya: Professionelles mehrsprachiges OCR-Tool für Dokumente, Open Source Native Deployment

Allgemeine Einführung

Surya ist ein Open-Source-Toolkit für die mehrsprachige OCR von Dokumenten, das die Texterkennung in über 90 Sprachen unterstützt. Es kann nicht nur zeilenweise Text erkennen, sondern auch das Layout analysieren, die Lesereihenfolge erkennen und Tabellen erkennen. Die Leistung von Surya konkurriert mit der von Cloud-basierten Diensten für eine breite Palette von Dokumenttypen, darunter PDFs, Bilder, Word-Dokumente und PPTs. Das Toolkit ist so konzipiert, dass es den Benutzern eine umfassende Lösung für das Parsen von Dokumenten bietet.

Hosting-API: https://www.datalab.to/

Für PDFs, Bilder, Word-Dokumente und PowerPoint

Surya: Professionelles mehrsprachiges Dokument-OCR-Tool-1


 

Funktionsliste

  • OCR: Texterkennung in über 90 Sprachen
  • Zeilenweise Texterkennung: identifiziert automatisch die Position jeder Textzeile in einem Dokument
  • Layout-Analyse: Erkennung von Tabellen, Bildern, Überschriften und anderen Elementen im Dokument
  • Erkennung der Lesereihenfolge: Identifizierung der Lesereihenfolge in einem Dokument
  • Tabellenerkennung: Erkennen von Zeilen und Spalten in einer Tabelle

 

Hilfe verwenden

Ablauf der Installation

  1. Stellen Sie sicher, dass Python 3.9+ und PyTorch installiert sind.
  2. Wenn Sie keinen Mac oder GPU-Rechner verwenden, müssen Sie möglicherweise zuerst die CPU-Version von torch installieren.
  3. Verwenden Sie den folgenden Befehl, um Surya zu installieren:
    pip install surya-ocr
    
  4. Wenn Sie Surya zum ersten Mal ausführen, werden die Modellgewichte automatisch heruntergeladen.

Verwendung Prozess

  1. Prüfen und konfigurierensurya/settings.pyEinstellungen in der Umgebungsvariable, können Sie alle Einstellungen mit der Umgebungsvariable überschreiben.
  2. Surya erkennt Taschenlampen automatisch, aber sie können manuell übersteuert werden. Beispiel:
    TORCH_DEVICE=cuda
    
  3. Verwenden Sie den folgenden Befehl, um die OCR-Anwendung auszuführen:
    python run_ocr_app.py
    
  4. Bei der Bearbeitung eines Dokuments können Sie zwischen verschiedenen Funktionsmodulen wählen, wie z. B. Texterkennung, Layoutanalyse usw.

Funktion Betriebsablauf

  1. OCR-Funktion::
    • Laden Sie Dokumente (PDFs, Bilder usw.).
    • Wählen Sie die Sprache (mehr als 90 Sprachen werden unterstützt).
    • Führen Sie die OCR-Erkennung aus, um den Textinhalt zu extrahieren.
  2. Zeilenweise Texterkennung::
    • Laden Sie das Dokument.
    • Führen Sie eine zeilenweise Texterkennung durch, um die Position jeder Textzeile zu ermitteln.
    • Testergebnisse exportieren.
  3. Layout-Analyse::
    • Laden Sie das Dokument.
    • Führen Sie eine Layoutanalyse durch, um Elemente wie Tabellen, Bilder, Überschriften usw. in einem Dokument zu erkennen.
    • Exportieren Sie die Ergebnisse der Analyse.
  4. Prüfung der Leseabfolge::
    • Laden Sie das Dokument.
    • Erkennung der Lesereihenfolge, um die Lesereihenfolge in einem Dokument zu ermitteln.
    • Testergebnisse exportieren.
  5. Formulare Erkennung::
    • Laden Sie das Dokument.
    • Führen Sie die Tabellenerkennung aus, um Zeilen und Spalten in einer Tabelle zu erkennen.
    • Exportieren Sie die Erkennungsergebnisse.

Surya bietet eine Vielzahl von Funktionen zum Parsen von Dokumenten. Die Benutzer können je nach Bedarf verschiedene Funktionsmodule auswählen. Sie können die offizielle Dokumentation und den Beispielcode für detaillierte Betriebsverfahren und Einrichtungsanweisungen einsehen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Surya: Professionelles mehrsprachiges OCR-Tool für Dokumente, Open Source Native Deployment

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)