AI Personal Learning
und praktische Anleitung

PaddleOCR: Eine mehrsprachige OCR-Werkzeugbibliothek auf der Grundlage von Flying Paddle, die die Erkennung von mehr als 80 Sprachen unterstützt

Dieser Artikel wurde am 2024-12-09 14:49 aktualisiert, ein Teil des Inhalts ist zeitkritisch, wenn er ungültig ist, bitte eine Nachricht hinterlassen!

Allgemeine Einführung

PaddleOCR ist ein mehrsprachiges OCR-Toolkit, das auf PaddlePaddle basiert und ein praktisches und ultraleichtes OCR-System bietet. Es unterstützt die Erkennung von mehr als 80 Sprachen und bietet Tools zur Datenannotation und -synthese, um das Training und die Bereitstellung auf Servern, mobilen Geräten, eingebetteten und IoT-Geräten zu unterstützen.PaddleOCR integriert Textbildkorrektur, Erkennung von Layoutbereichen, Erkennung von regulärem Text, Erkennung von Stempeltext, Texterkennung, Tabellenerkennung und andere Funktionen, wodurch die Entwicklungskosten erheblich gesenkt werden, und unterstützt hochleistungsfähige Schlussfolgerungen, servicebasierte Bereitstellung und endseitige Bereitstellung. PaddleOCR unterstützt eine Vielzahl von Möglichkeiten wie High-Performance-Inferenz, servitised deployment und end-side deployment.

 

Funktionsliste

  • mehrsprachige ErkennungTexterkennung: Die Texterkennung wird in über 80 Sprachen unterstützt.
  • Tools zur Datenannotation und -synthesePraktische Tools zur Datenkommentierung und -synthese helfen bei der schnellen Erstellung von Trainingsdaten.
  • Text-Bild-KorrekturIntegrierte Textbildkorrekturfunktion zur Verbesserung der Erkennungsgenauigkeit.
  • Erkennung von LayoutbereichenUnterstützung der hochpräzisen Erkennung von Layoutbereichen für das Parsen komplexer Dokumente.
  • Formulare ErkennungBietet eine Formularerkennungsfunktion, die in der Lage ist, Formulardaten genau zu extrahieren.
  • Erkennung von SiegeltextUnterstützt die Erkennung und Erkennung von gestempeltem Text.
  • Leistungsstarkes ReasoningUnterstützt Hochleistungsinferenzen für Echtzeitanwendungen.
  • Mehrere EinsatzoptionenUnterstützt die Bereitstellung von Servern, mobilen Geräten, eingebetteten und IoT-Geräten.
  • Low-Code-EntwicklungBereitstellung von Low-Code-Entwicklungstools für den gesamten Prozess, um die Entwicklungsschwelle zu senken und die Entwicklungseffizienz zu verbessern.

 

Hilfe verwenden

Ablauf der Installation

  1. Vorbereitung der Umwelt::
    • Stellen Sie sicher, dass Python 3.6 oder höher installiert ist.
    • Installieren Sie das PaddlePaddle-Framework, das mit dem folgenden Befehl installiert werden kann:
     pip install paddlepaddle
    
    • PaddleOCR installieren:
     pip install paddleocr
    
  2. Modelle herunterladen::
    • Laden Sie die trainierten Modelle aus dem offiziellen Repository herunter. In der offiziellen Dokumentation finden Sie spezifische Download-Links und Befehle.
  3. laufendes Beispiel::
    • Verwenden Sie den folgenden Befehl, um das OCR-Beispiel auszuführen: bash
      paddleocr --image_dir . /doc/imgs/11.jpg --det_model_dir . /inference/ch_ppocr_mobile_v2.0_det_infer --rec_model_dir . /inference/ch_ppocr_mobile_v2.0_rec_infer --cls_model_dir . /inference/ch_ppocr_mobile_v2.0_cls_infer

Funktion Betriebsablauf

  1. Texterkennung::
    • Bereiten Sie die zu erkennende Bilddatei vor.
    • ausnutzen paddleocr Befehlszeilentool oder die Python-API zur Identifizierung.
    • Beispiel-Code:
     from paddleocr import PaddleOCR, draw_ocr
    import matplotlib.pyplot as plt
    cv2 importieren
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    img_path = 'pfad/zu/ihr/bild.jpg'
    Ergebnis = ocr.ocr(img_pfad, cls=True)
    for line in result.
    print(line)
    # Visualisierung Ergebnis
    Bild = cv2.imread(img_pfad)
    boxes = [elements[0] for elements in result]
    txts = [elements[1][0] for elements in result]
    scores = [elements[1][1] for elements in result]
    im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf')
    im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
    plt.imshow(im_show)
    plt.show()
    
  2. Formulare Erkennung::
    • Bereiten Sie die Bilddatei vor, die das Formular enthält.
    • ausnutzen paddleocr Befehlszeilentool oder Python-API für die Formularerkennung.
    • Beispiel-Code:
     from paddleocr import PPStructure, draw_structure_result
    cv2 importieren
    table_engine = PPStructure(show_log=True)
    img_pfad = 'pfad/zu/ihr/tisch_bild.jpg'
    Ergebnis = table_engine(img_pfad)
    for line in result.
    print(line)
    # Visualisierungsergebnisse
    bild = cv2.imread(img_pfad)
    im_show = draw_structure_result(image, result, font_path='path/to/your/font.ttf')
    im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
    plt.imshow(im_show)
    plt.show()
    
  3. Erkennung von Layoutbereichen::
    • Bereiten Sie Bilddateien mit komplexen Layouts vor.
    • ausnutzen paddleocr Befehlszeilentool oder Python-API zur Erkennung von Layoutbereichen.
    • Beispiel-Code:
     from paddleocr import PaddleOCR, draw_ocr
    import matplotlib.pyplot as plt
    cv2 importieren
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    img_pfad = 'pfad/zu/ihr/layout_bild.jpg'
    Ergebnis = ocr.ocr(img_pfad, cls=True)
    for line in result.
    print(line)
    # Visualisierung Ergebnis
    Bild = cv2.imread(img_pfad)
    boxes = [elements[0] for elements in result]
    txts = [elements[1][0] for elements in result]
    scores = [elements[1][1] for elements in result]
    im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf')
    im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
    plt.imshow(im_show)
    plt.show()
    

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " PaddleOCR: Eine mehrsprachige OCR-Werkzeugbibliothek auf der Grundlage von Flying Paddle, die die Erkennung von mehr als 80 Sprachen unterstützt

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)