PaddleOCR : bibliothèque d'outils d'OCR multilingue basée sur Flying Paddle, prenant en charge la reconnaissance de plus de 80 langues.
Introduction générale
PaddleOCR est une boîte à outils d'OCR multilingue basée sur PaddlePaddle, conçue pour fournir un système d'OCR pratique et ultra-léger. Il prend en charge la reconnaissance de plus de 80 langues et fournit des outils d'annotation et de synthèse des données pour soutenir la formation et le déploiement sur les serveurs, les appareils mobiles, les appareils embarqués et les appareils IoT. paddleOCR intègre la correction d'image de texte, la détection de zone de mise en page, la détection de texte régulier, la détection de texte de timbre, la reconnaissance de texte, la reconnaissance de tableau et d'autres fonctionnalités, réduisant considérablement les coûts de développement, et prend en charge le raisonnement à haute performance, le déploiement basé sur les services et le déploiement côté extrémité. Il prend également en charge l'inférence haute performance, le déploiement basé sur les services et le déploiement côté utilisateur.
Liste des fonctions
- reconnaissance multilingueReconnaissance de texte : La reconnaissance de texte est possible dans plus de 80 langues.
- Outils d'annotation et de synthèse des donnéesLes données d'entraînement : fournir des outils pratiques d'annotation et de synthèse des données pour aider à générer rapidement des données d'entraînement.
- Correction de l'image de texteFonction de correction de l'image du texte intégrée pour améliorer la précision de la reconnaissance.
- Détection de la zone de mise en pageLe logiciel d'analyse des documents : il permet de détecter avec une grande précision les zones de mise en page pour l'analyse de documents complexes.
- reconnaissance des formesLa fonction de reconnaissance des tableaux permet d'extraire avec précision les données des tableaux.
- Détection du texte du sceauLe système de reconnaissance des textes estampillés : il permet de détecter et de reconnaître les textes estampillés.
- Raisonnement à haute performanceLe système d'inférence est un outil très performant pour les applications en temps réel.
- Options de déploiement multiplesLe système de gestion de l'information (SGI) est un outil de gestion de l'information qui permet d'assurer le déploiement de serveurs, d'appareils mobiles, d'appareils intégrés et d'appareils IoT.
- Développement à code réduitLes outils de développement de processus complets à code bas permettent d'abaisser le seuil de développement et d'améliorer l'efficacité du développement.
Utiliser l'aide
Processus d'installation
- Préparation de l'environnement: :
- Assurez-vous que Python 3.6 ou une version ultérieure est installé.
- Installez le framework PaddlePaddle, qui peut être installé avec la commande suivante :
pip install paddlepaddle
- Installer PaddleOCR :
pip install paddleocr
- Télécharger les modèles: :
- Téléchargez le modèle pré-entraîné depuis le dépôt officiel, vous pouvez vous référer à la documentation officielle pour les liens de téléchargement et les commandes spécifiques.
- exemple de fonctionnement: :
- Utilisez la commande suivante pour exécuter l'exemple d'OCR :
bash
paddleocr --image_dir ./doc/imgs/11.jpg --det_model_dir ./inference/ch_ppocr_mobile_v2.0_det_infer --rec_model_dir ./inference/ch_ppocr_mobile_v2.0_rec_infer --cls_model_dir ./inference/ch_ppocr_mobile_v2.0_cls_infer
- Utilisez la commande suivante pour exécuter l'exemple d'OCR :
Fonction Opération Déroulement
- reconnaissance de texte: :
- Préparer le fichier image à reconnaître.
- utiliser
paddleocr
ou l'API Python pour l'identification. - Exemple de code :
from paddleocr import PaddleOCR, draw_ocr import matplotlib.pyplot as plt import cv2 ocr = PaddleOCR(use_angle_cls=True, lang='ch') img_path = 'path/to/your/image.jpg' result = ocr.ocr(img_path, cls=True) for line in result: print(line) # 可视化结果 image = cv2.imread(img_path) boxes = [elements[0] for elements in result] txts = [elements[1][0] for elements in result] scores = [elements[1][1] for elements in result] im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf') im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB) plt.imshow(im_show) plt.show()
- reconnaissance des formes: :
- Préparer le fichier image contenant le formulaire.
- utiliser
paddleocr
Outil en ligne de commande ou API Python pour la reconnaissance de formulaires. - Exemple de code :
from paddleocr import PPStructure, draw_structure_result import cv2 table_engine = PPStructure(show_log=True) img_path = 'path/to/your/table_image.jpg' result = table_engine(img_path) for line in result: print(line) # 可视化结果 image = cv2.imread(img_path) im_show = draw_structure_result(image, result, font_path='path/to/your/font.ttf') im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB) plt.imshow(im_show) plt.show()
- Détection de la zone de mise en page: :
- Préparer des fichiers images contenant des mises en page complexes.
- utiliser
paddleocr
Outil en ligne de commande ou API Python pour la détection des zones de mise en page. - Exemple de code :
from paddleocr import PaddleOCR, draw_ocr import matplotlib.pyplot as plt import cv2 ocr = PaddleOCR(use_angle_cls=True, lang='ch') img_path = 'path/to/your/layout_image.jpg' result = ocr.ocr(img_path, cls=True) for line in result: print(line) # 可视化结果 image = cv2.imread(img_path) boxes = [elements[0] for elements in result] txts = [elements[1][0] for elements in result] scores = [elements[1][1] for elements in result] im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf') im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB) plt.imshow(im_show) plt.show()
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...