TF-ID : formulaire académique/outil de reconnaissance d'images
Introduction générale
TF-ID (Table/Figure IDentifier) est une famille de modèles de détection d'objets dédiés à l'extraction de tableaux et d'images à partir d'articles académiques. Le projet a été créé par Yifei Hu et mis en open-source sur GitHub. Le projet a été créé par Yifei Hu et ouvert sur GitHub. Les modèles TF-ID sont affinés pour reconnaître et extraire des tableaux et des images d'articles académiques, supportant l'extraction avec ou sans texte de légende. Le projet fournit un code d'entraînement complet, les poids des modèles et des ensembles de données étiquetés manuellement, le tout en libre accès sous la licence MIT.

Liste des fonctions
- Extraire des tableaux et des images d'articles universitaires
- Prise en charge de l'extraction avec ou sans texte d'en-tête
- Fournir le code d'entraînement complet et les poids du modèle
- Prise en charge de l'extraction de tableaux et d'images à partir de fichiers PDF
- Plusieurs versions de modèles disponibles pour répondre à différents besoins
Utiliser l'aide
Processus d'installation
- Entrepôt de clonage :
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- Télécharger l'ensemble de données : Téléchargez l'ensemble de données de Hugging Face et extrayez-le dans le répertoire approprié.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- Convertir le format du jeu de données :
python coco_to_florence.py
- Modèles de formation :
accelerate launch train.py
Processus d'utilisation
- Extrait les tableaux et les images d'une seule image :
python inference.py --image_path path/to/image.png
- Extraire tous les tableaux et toutes les images des fichiers PDF :
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
Procédure d'utilisation détaillée
- Extraction de tableaux et d'images à partir d'une seule image: :
- Transmet le chemin de l'image à la fonction
inference.py
qui utilisera le modèle TF-ID-large par défaut pour extraire les tableaux et les images de l'image. - Les résultats de l'extraction seront renvoyés sous la forme d'une boîte englobante identifiant la table et la position de l'image dans l'image.
- Transmet le chemin de l'image à la fonction
- Extraire tous les tableaux et toutes les images des fichiers PDF: :
- Transmettre le chemin d'accès au fichier PDF à la fonction
pdf_to_table_figures.py
qui extraira tous les tableaux et toutes les images du fichier PDF et enregistrera les images recadrées dans le répertoire de sortie spécifié. - Par défaut, le modèle TF-ID-large est utilisé pour l'extraction, ce qui peut être changé en modifiant le paramètre
model_id
pour passer à une autre version du modèle.
- Transmettre le chemin d'accès au fichier PDF à la fonction
- Modèles de formation: :
- Après avoir cloné le référentiel et téléchargé le jeu de données, utilisez la commande
coco_to_florence.py
Le script convertit le jeu de données au format Florence 2. - utiliser
accelerate launch train.py
lance l'apprentissage du modèle et le fichier de points de contrôle est sauvegardé pendant l'apprentissage.
- Après avoir cloné le référentiel et téléchargé le jeu de données, utilisez la commande
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...