TF-ID : formulaire académique/outil de reconnaissance d'images

Dernières ressources sur l'IAPosté il y a 1 an Cercle de partage de l'IA

11.4K 00

Introduction générale

TF-ID (Table/Figure IDentifier) est une famille de modèles de détection d'objets dédiés à l'extraction de tableaux et d'images à partir d'articles académiques. Le projet a été créé par Yifei Hu et mis en open-source sur GitHub. Le projet a été créé par Yifei Hu et ouvert sur GitHub. Les modèles TF-ID sont affinés pour reconnaître et extraire des tableaux et des images d'articles académiques, supportant l'extraction avec ou sans texte de légende. Le projet fournit un code d'entraînement complet, les poids des modèles et des ensembles de données étiquetés manuellement, le tout en libre accès sous la licence MIT.

Liste des fonctions

Extraire des tableaux et des images d'articles universitaires
Prise en charge de l'extraction avec ou sans texte d'en-tête
Fournir le code d'entraînement complet et les poids du modèle
Prise en charge de l'extraction de tableaux et d'images à partir de fichiers PDF
Plusieurs versions de modèles disponibles pour répondre à différents besoins

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

Télécharger l'ensemble de données : Téléchargez l'ensemble de données de Hugging Face et extrayez-le dans le répertoire approprié.

wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images

Convertir le format du jeu de données :
```
python coco_to_florence.py
```
Modèles de formation :
```
accelerate launch train.py
```

Processus d'utilisation

Extrait les tableaux et les images d'une seule image :
```
python inference.py --image_path path/to/image.png
```

Extraire tous les tableaux et toutes les images des fichiers PDF :

python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output

Procédure d'utilisation détaillée

Extraction de tableaux et d'images à partir d'une seule image: :
- Transmet le chemin de l'image à la fonctioninference.pyqui utilisera le modèle TF-ID-large par défaut pour extraire les tableaux et les images de l'image.
- Les résultats de l'extraction seront renvoyés sous la forme d'une boîte englobante identifiant la table et la position de l'image dans l'image.
Extraire tous les tableaux et toutes les images des fichiers PDF: :
- Transmettre le chemin d'accès au fichier PDF à la fonctionpdf_to_table_figures.pyqui extraira tous les tableaux et toutes les images du fichier PDF et enregistrera les images recadrées dans le répertoire de sortie spécifié.
- Par défaut, le modèle TF-ID-large est utilisé pour l'extraction, ce qui peut être changé en modifiant le paramètremodel_idpour passer à une autre version du modèle.
Modèles de formation: :
- Après avoir cloné le référentiel et téléchargé le jeu de données, utilisez la commandecoco_to_florence.pyLe script convertit le jeu de données au format Florence 2.
- utiliseraccelerate launch train.pylance l'apprentissage du modèle et le fichier de points de contrôle est sauvegardé pendant l'apprentissage.