TF-ID : formulaire académique/outil de reconnaissance d'images

Introduction générale

TF-ID (Table/Figure IDentifier) est une famille de modèles de détection d'objets dédiés à l'extraction de tableaux et d'images à partir d'articles académiques. Le projet a été créé par Yifei Hu et mis en open-source sur GitHub. Le projet a été créé par Yifei Hu et ouvert sur GitHub. Les modèles TF-ID sont affinés pour reconnaître et extraire des tableaux et des images d'articles académiques, supportant l'extraction avec ou sans texte de légende. Le projet fournit un code d'entraînement complet, les poids des modèles et des ensembles de données étiquetés manuellement, le tout en libre accès sous la licence MIT.

 

TF-ID:学术论文表格/图像识别工具

 

 

Liste des fonctions

  • Extraire des tableaux et des images d'articles universitaires
  • Prise en charge de l'extraction avec ou sans texte d'en-tête
  • Fournir le code d'entraînement complet et les poids du modèle
  • Prise en charge de l'extraction de tableaux et d'images à partir de fichiers PDF
  • Plusieurs versions de modèles disponibles pour répondre à différents besoins

 

 

Utiliser l'aide

Processus d'installation

  1. Entrepôt de clonage :
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Télécharger l'ensemble de données : Téléchargez l'ensemble de données de Hugging Face et extrayez-le dans le répertoire approprié.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. Convertir le format du jeu de données :
    python coco_to_florence.py
    
  4. Modèles de formation :
    accelerate launch train.py
    

Processus d'utilisation

  1. Extrait les tableaux et les images d'une seule image :
    python inference.py --image_path path/to/image.png
    
  2. Extraire tous les tableaux et toutes les images des fichiers PDF :
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Procédure d'utilisation détaillée

  1. Extraction de tableaux et d'images à partir d'une seule image: :
    • Transmet le chemin de l'image à la fonctioninference.pyqui utilisera le modèle TF-ID-large par défaut pour extraire les tableaux et les images de l'image.
    • Les résultats de l'extraction seront renvoyés sous la forme d'une boîte englobante identifiant la table et la position de l'image dans l'image.
  2. Extraire tous les tableaux et toutes les images des fichiers PDF: :
    • Transmettre le chemin d'accès au fichier PDF à la fonctionpdf_to_table_figures.pyqui extraira tous les tableaux et toutes les images du fichier PDF et enregistrera les images recadrées dans le répertoire de sortie spécifié.
    • Par défaut, le modèle TF-ID-large est utilisé pour l'extraction, ce qui peut être changé en modifiant le paramètremodel_idpour passer à une autre version du modèle.
  3. Modèles de formation: :
    • Après avoir cloné le référentiel et téléchargé le jeu de données, utilisez la commandecoco_to_florence.pyLe script convertit le jeu de données au format Florence 2.
    • utiliseraccelerate launch train.pylance l'apprentissage du modèle et le fichier de points de contrôle est sauvegardé pendant l'apprentissage.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...