TF-ID: Akademisches Papierformular/Bilderkennungstool

Neueste AI-RessourcenGeschrieben vor 1 Jahr AI-Austauschkreis

11.5K 00

Allgemeine Einführung

TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen für die Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten. Das Projekt wurde von Yifei Hu ins Leben gerufen und auf GitHub veröffentlicht. Die TF-ID-Modelle sind so abgestimmt, dass sie Tabellen und Bilder aus wissenschaftlichen Arbeiten erkennen und extrahieren können, wobei die Extraktion mit oder ohne Beschriftungstext möglich ist. Das Projekt bietet einen vollständigen Trainingscode, Modellgewichte und manuell beschriftete Datensätze, die alle unter der MIT-Lizenz zur Verfügung gestellt werden.

Funktionsliste

Extrahieren von Tabellen und Bildern aus wissenschaftlichen Arbeiten
Unterstützt die Extraktion mit oder ohne Kopftext
Bereitstellung des vollständigen Trainingscodes und der Modellgewichte
Unterstützung der Extraktion von Tabellen und Bildern aus PDF-Dateien
Mehrere Modellversionen für unterschiedliche Anforderungen verfügbar

Hilfe verwenden

Einbauverfahren

Klon-Lagerhaus:

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

Download des Datensatzes: Laden Sie den Datensatz von Hugging Face herunter und entpacken Sie ihn in das entsprechende Verzeichnis.

wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images

Konvertieren Sie das Format des Datensatzes:
```
python coco_to_florence.py
```
Ausbildungsmodelle:
```
accelerate launch train.py
```

Verwendungsprozess

Extrahiert Tabellen und Bilder aus einem einzigen Bild:
```
python inference.py --image_path path/to/image.png
```

Extrahieren Sie alle Tabellen und Bilder aus PDF-Dateien:

python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output

Detaillierte Vorgehensweise

Extrahieren von Tabellen und Bildern aus einem einzigen Bild::
- Übergibt den Bildpfad an dieinference.pySkript, das das Standardmodell TF-ID-large verwendet, um die Tabellen und Bilder im Bild zu extrahieren.
- Die Extraktionsergebnisse werden in Form eines Begrenzungsrahmens zurückgegeben, der die Position der Tabelle und des Bildes im Bild angibt.
Extrahieren aller Tabellen und Bilder aus PDF-Dateien::
- Übergeben Sie den Pfad der PDF-Datei an denpdf_to_table_figures.pySkript, das alle Tabellen und Bilder aus der PDF-Datei extrahiert und die beschnittenen Bilder in dem angegebenen Ausgabeverzeichnis speichert.
- Standardmäßig wird das Modell TF-ID-large für die Extraktion verwendet, was durch Ändern des Skriptes geändert werden kannmodel_idum zu einer anderen Modellversion zu wechseln.
Ausbildungsmodelle::
- Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie diecoco_to_florence.pyDas Skript konvertiert den Datensatz in das Format Florence 2.
- ausnutzenaccelerate launch train.pystartet das Modelltraining, und die Checkpoint-Datei wird während des Trainings gespeichert.