API d'extraction de texte (text-extract-api) : extraction visuelle d'informations textuelles, outil d'extraction de PDF anonymes

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

18.2K 00

Introduction générale

L'API d'extraction de texte (text-extract-api) est un outil puissant conçu pour extraire et analyser le contenu d'une variété de formats de documents (par exemple PDF, Word, PPTX, etc.). L'API utilise une technologie de reconnaissance optique de caractères (OCR) de pointe et des modèles supportés par Ollama pour pouvoir convertir n'importe quel document ou image dans un format JSON ou Markdown structuré. Les principales caractéristiques sont l'extraction de texte très précise, la suppression des informations personnelles identifiables (PII), la prise en charge de stratégies de stockage multiples et le traitement des tâches distribuées. L'API d'extraction de texte est construite avec FastAPI et utilise Celery pour le traitement asynchrone des tâches et Redis pour la mise en cache des résultats de l'OCR afin de garantir un traitement efficace et fiable des documents.

pdf-extract-api est une API d'extraction et d'analyse de documents qui prend en charge l'anonymisation des documents à l'aide de la technologie OCR de pointe et des modèles pris en charge par Ollama. Elle peut convertir n'importe quel document ou image en JSON ou Markdown structuré, supporte l'extraction de haute précision de données tabulaires, de nombres et de formules mathématiques. Construite sur FastAPI, l'API utilise Celery pour le traitement asynchrone des tâches et Redis pour mettre en cache les résultats de l'OCR, garantissant ainsi un traitement efficace et fiable des documents.

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

Liste des fonctions

OCR de haute précision : utilisez PyTorch, Marker, Llama3.2-vision et d'autres stratégies d'OCR pour obtenir une extraction de texte de haute précision.
Conversion de documents : prise en charge des documents PDF, Word, PPTX et autres au format Markdown ou JSON.
Supprimer les IPI : identifie et supprime automatiquement les informations d'identification personnelle des documents.
Traitement distribué : utilisez Celery pour le traitement des tâches distribuées afin d'améliorer l'efficacité du traitement.
Mécanisme de mise en cache : utiliser Redis pour mettre en cache les résultats de l'OCR afin de réduire le temps de traitement répété.
Stratégie de stockage multiple : prise en charge du système de fichiers local, de Google Drive et d'autres méthodes de stockage.
Outils CLI : fournir des outils de ligne de commande pour aider les utilisateurs à envoyer des tâches et à traiter les résultats.

Utiliser l'aide

Processus d'installation

Téléchargez et installez Ollama.
Téléchargez et installez Docker.
Cloner le dépôt text-extract-api :

   git clone https://github.com/CatchTheTornado/text-extract-api.git

Allez dans le répertoire du projet et démarrez le conteneur Docker :

   cd text-extract-api
docker-compose up

Utilisation

Conversion de documents

Télécharger les documents à convertir dans le répertoire spécifié.
Utilisez l'outil CLI pour envoyer des tâches de conversion :

   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt

Le résultat de la conversion sera enregistré au format JSON ou Markdown dans le répertoire spécifié.

Suppression des IPI

Télécharger un document contenant des IIP.
Utilisez l'outil CLI pour envoyer les tâches de retrait des IIP :

   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt

Toutes les informations personnelles identifiables seront supprimées des documents traités.

Fonction détaillée du déroulement des opérations

OCR de haute précisionIl est possible de configurer différentes stratégies d'OCR (par exemple, Marker, Llama3.2-vision, etc.) pour obtenir une extraction de texte de haute précision pour divers documents. Les utilisateurs peuvent choisir la stratégie d'OCR la plus appropriée en fonction du type de document.
Conversion de documentsLe document sera converti au format Markdown ou JSON, afin de faciliter le traitement et l'analyse ultérieurs des données.
Suppression des IPILe système de gestion des données : identifie et supprime automatiquement les informations personnelles identifiables des documents afin de garantir la confidentialité et la sécurité des données.
traitement distribuéLe traitement des tâches distribuées à l'aide de Celery pour prendre en charge les tâches de traitement de documents à grande échelle et améliorer l'efficacité du traitement.
mécanisme de mise en cacheLes résultats de l'OCR sont mis en cache par Redis afin de réduire le temps de traitement répétitif et d'améliorer le temps de réponse du système.
Politique de multi-stockageLes utilisateurs peuvent choisir la stratégie de stockage appropriée en fonction de leurs besoins.
Outils CLILes outils de ligne de commande sont fournis pour permettre aux utilisateurs d'envoyer des tâches et de traiter les résultats à l'aide de simples commandes, pour plus de commodité.