Surya: Professionelles mehrsprachiges OCR-Tool für Dokumente, Open Source Native Deployment

Neueste AI-RessourcenGeschrieben vor 10 Monaten AI-Austauschkreis

3.7K 00

Allgemeine Einführung

Surya ist ein Open-Source-OCR-Toolkit für mehrsprachige Dokumente, das die Texterkennung in über 90 Sprachen unterstützt. Es kann nicht nur zeilenweise Text erkennen, sondern auch das Layout analysieren, die Lesereihenfolge erkennen und Tabellen erkennen. Die Leistung von Surya konkurriert mit der von Cloud-basierten Diensten für eine breite Palette von Dokumenttypen, darunter PDFs, Bilder, Word-Dokumente und PPTs. Das Toolkit wurde entwickelt, um Benutzern eine umfassende Lösung für das Parsen von Dokumenten zu bieten.

Hosting-API: https://www.datalab.to/
Für PDFs, Bilder, Word-Dokumente und PowerPoint

Funktionsliste

OCR: Texterkennung in über 90 Sprachen
Zeilenweise Texterkennung: identifiziert automatisch die Position jeder Textzeile in einem Dokument
Layout-Analyse: Erkennung von Tabellen, Bildern, Überschriften und anderen Elementen im Dokument
Erkennung der Lesereihenfolge: Identifizierung der Lesereihenfolge in einem Dokument
Tabellenerkennung: Erkennen von Zeilen und Spalten in einer Tabelle

Hilfe verwenden

Einbauverfahren

Stellen Sie sicher, dass Python 3.9+ und PyTorch installiert sind.
Wenn Sie keinen Mac oder GPU-Rechner verwenden, müssen Sie möglicherweise zuerst die CPU-Version von torch installieren.
Verwenden Sie den folgenden Befehl, um Surya zu installieren:
```
pip install surya-ocr
```
Wenn Sie Surya zum ersten Mal ausführen, werden die Modellgewichte automatisch heruntergeladen.

Verwendungsprozess

Prüfen und konfigurierensurya/settings.pyEinstellungen in der Umgebungsvariable, können Sie alle Einstellungen mit der Umgebungsvariable überschreiben.
Surya erkennt Taschenlampen automatisch, aber sie können manuell übersteuert werden. Beispiel:
```
TORCH_DEVICE=cuda
```
Verwenden Sie den folgenden Befehl, um die OCR-Anwendung auszuführen:
```
python run_ocr_app.py
```
Bei der Bearbeitung eines Dokuments können Sie zwischen verschiedenen Funktionsmodulen wählen, wie z. B. Texterkennung, Layoutanalyse usw.

Funktion Betriebsablauf

OCR-Funktion::
- Laden Sie Dokumente (PDFs, Bilder usw.).
- Wählen Sie die Sprache (mehr als 90 Sprachen werden unterstützt).
- Führen Sie die OCR-Erkennung aus, um den Textinhalt zu extrahieren.
Zeilenweise Texterkennung::
- Laden Sie das Dokument.
- Führen Sie eine zeilenweise Texterkennung durch, um die Position jeder Textzeile zu ermitteln.
- Testergebnisse exportieren.
Layout-Analyse::
- Laden Sie das Dokument.
- Führen Sie eine Layout-Analyse durch, um Elemente wie Tabellen, Bilder, Überschriften usw. in einem Dokument zu erkennen.
- Exportieren Sie die Ergebnisse der Analyse.
Prüfung der Leseabfolge::
- Laden Sie das Dokument.
- Erkennung der Lesereihenfolge, um die Lesereihenfolge in einem Dokument zu ermitteln.
- Testergebnisse exportieren.
Formerkennung::
- Laden Sie das Dokument.
- Führen Sie die Tabellenerkennung aus, um Zeilen und Spalten in einer Tabelle zu erkennen.
- Exportieren Sie die Erkennungsergebnisse.

Surya bietet reichhaltige Funktionen zum Parsen von Dokumenten. Die Benutzer können verschiedene Funktionsmodule auswählen, die sie nach ihren Bedürfnissen einsetzen können. Sie können die offizielle Dokumentation und den Beispielcode für detaillierte Betriebsverfahren und Einrichtungsanweisungen einsehen.