ViTLP : Extraction de données structurées à partir de documents PDF typographiquement complexes et génération guidée visuellement de modèles pré-entraînés pour la mise en page de textes

Dernières ressources sur l'IAMise à jour il y a 10 mois Cercle de partage de l'IA

18.4K 00

Introduction générale

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) est un projet open-source qui vise à améliorer le traitement de l'intelligence documentaire grâce à des modèles de pré-entraînement de disposition de texte génératif guidés visuellement. Le modèle ViTLP, qui est capable de localiser et de reconnaître du texte OCR, fournit des points de contrôle ViTLP-medium (380M) pré-entraînés, auxquels les utilisateurs peuvent accéder sur Huggingface. Le code et les poids du modèle pour le projet sont disponibles sur GitHub et prennent en charge le traitement OCR des images de documents et la génération de la mise en page du texte.

Liste des fonctions

Localisation et reconnaissance de texte OCRLe modèle ViTLP permet une localisation et une reconnaissance efficaces des textes OCR.
Modèle de pré-entraînementLes points de contrôle de pré-entraînement ViTLP-medium (380M) sont fournis et peuvent être utilisés directement ou affinés par l'utilisateur.
Traitement des images de documentsSupport pour le téléchargement d'images de documents et le traitement OCR.
Modélisation de la mise au pointLes outils de mise au point pour la formation ultérieure sur les ensembles de données OCR et les ensembles de données VQA.
Outils de composition de documents: Fournit des outils de synthèse de documents avec des métadonnées de boîtes de positionnement.

Utiliser l'aide

Processus d'installation

Cloner le code du projet ViTLP :

   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP

Installer la dépendance :

   pip install -r requirements.txt

Télécharger les points de contrôle préalables à la formation :

   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Processus d'utilisation

Reconnaissance de texte OCR: :
- Exécutez le script OCR :
```
 python ocr.py
```
- Téléchargez l'image d'un document et le modèle effectuera automatiquement le traitement OCR et produira les résultats.
Modélisation de la mise au point: :
- consultation./finetuningdans le répertoire pour la formation ultérieure sur l'ensemble de données OCR et l'ensemble de données VQA.
- Utilisez l'outil de synthèse de documents pour générer des documents synthétiques avec des métadonnées de boîtes de positionnement afin d'améliorer l'apprentissage du modèle.
Décodage par lots: :
- Utiliser des scripts de décodage par lots : bash bash decode.sh
- Le script traitera par lots les images de documents et produira les résultats de l'OCR.

Fonctionnement détaillé

Localisation et reconnaissance de texte OCRAprès avoir téléchargé l'image du document, le modèle détecte et reconnaît automatiquement la zone de texte et fournit le contenu du texte et les informations relatives à l'emplacement.
Modélisation de la mise au pointLes utilisateurs peuvent utiliser les outils de mise au point fournis pour perfectionner le modèle en fonction des exigences de leurs ensembles de données et améliorer les résultats de la reconnaissance dans des scénarios spécifiques.
Outils de composition de documentsLes modèles d'évaluation de la qualité de l'eau : Générer des documents avec des métadonnées de boîtes de positionnement via un outil de synthèse pour aider les modèles à mieux comprendre la disposition et la structure du texte pendant l'entraînement.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

Dernières ressources sur l'IA # AI Image Style Control

Il y a 3 mois

020.2K

Cicada Mirror : plateforme de création de vidéos d'humains numériques avec des centaines de modèles d'humains numériques et clonage d'images d'humains numériques exclusives (payant)

Dernières ressources sur l'IA # AI Digital Man

Il y a 10 mois

019.6K

Social Media Assistant : Browser Plugin pour la collecte de données sur Xiaohongshu, Jieyin et d'autres plateformes

Dernières ressources sur l'IA

Il y a 7 mois

017.5K

Chatbox : client multiplateforme Assistant de bureau IA

Dernières ressources sur l'IA # AI Localised Chat Application

Il y a 7 mois

024K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

ViTLP : Extraction de données structurées à partir de documents PDF typographiquement complexes et génération guidée visuellement de modèles pré-entraînés pour la mise en page de textes

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

Fonctionnement détaillé

World Labs : Construisez un modèle 3D du monde à partir d'une seule image, participez au bêta-test du modèle Spatial Intelligence !

Fitten Code : un assistant IA intégré à VS Code pour améliorer l'efficacité de la programmation, prise en charge des modèles non top 10

Articles connexes

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

Cicada Mirror : plateforme de création de vidéos d'humains numériques avec des centaines de modèles d'humains numériques et clonage d'images d'humains numériques exclusives (payant)

Social Media Assistant : Browser Plugin pour la collecte de données sur Xiaohongshu, Jieyin et d'autres plateformes

Chatbox : client multiplateforme Assistant de bureau IA

Pas de commentaires

Dernières collections

Derniers articles

ViTLP : Extraction de données structurées à partir de documents PDF typographiquement complexes et génération guidée visuellement de modèles pré-entraînés pour la mise en page de textes

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

Fonctionnement détaillé

World Labs : Construisez un modèle 3D du monde à partir d'une seule image, participez au bêta-test du modèle Spatial Intelligence !

Fitten Code : un assistant IA intégré à VS Code pour améliorer l'efficacité de la programmation, prise en charge des modèles non top 10

Articles connexes

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

Cicada Mirror : plateforme de création de vidéos d'humains numériques avec des centaines de modèles d'humains numériques et clonage d'images d'humains numériques exclusives (payant)

Social Media Assistant : Browser Plugin pour la collecte de données sur Xiaohongshu, Jieyin et d'autres plateformes

Chatbox : client multiplateforme Assistant de bureau IA

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles