Allgemeine Einführung
TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen für die Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten. Das Projekt wurde von Yifei Hu ins Leben gerufen und auf GitHub veröffentlicht. Die TF-ID-Modelle sind so abgestimmt, dass sie Tabellen und Bilder aus wissenschaftlichen Arbeiten erkennen und extrahieren können, wobei die Extraktion mit oder ohne Beschriftungstext möglich ist. Das Projekt bietet einen vollständigen Trainingscode, Modellgewichte und manuell beschriftete Datensätze, die alle unter der MIT-Lizenz zur Verfügung gestellt werden.
Funktionsliste
- Extrahieren von Tabellen und Bildern aus wissenschaftlichen Arbeiten
- Unterstützt die Extraktion mit oder ohne Kopftext
- Bereitstellung des vollständigen Trainingscodes und der Modellgewichte
- Unterstützung der Extraktion von Tabellen und Bildern aus PDF-Dateien
- Mehrere Modellversionen für unterschiedliche Anforderungen verfügbar
Hilfe verwenden
Einbauverfahren
- Klon-Lagerhaus:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- Download des Datensatzes: Laden Sie den Datensatz von Hugging Face herunter und entpacken Sie ihn in das entsprechende Verzeichnis.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- Konvertieren Sie das Format des Datensatzes:
python coco_to_florence.py
- Ausbildungsmodelle:
accelerate launch train.py
Verwendungsprozess
- Extrahiert Tabellen und Bilder aus einem einzigen Bild:
python inference.py --image_path path/to/image.png
- Extrahieren Sie alle Tabellen und Bilder aus PDF-Dateien:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
Detaillierte Vorgehensweise
- Extrahieren von Tabellen und Bildern aus einem einzigen Bild::
- Übergibt den Bildpfad an die
inference.py
Skript, das das Standardmodell TF-ID-large verwendet, um die Tabellen und Bilder im Bild zu extrahieren. - Die Extraktionsergebnisse werden in Form eines Begrenzungsrahmens zurückgegeben, der die Position der Tabelle und des Bildes im Bild angibt.
- Übergibt den Bildpfad an die
- Extrahieren aller Tabellen und Bilder aus PDF-Dateien::
- Übergeben Sie den Pfad der PDF-Datei an den
pdf_to_table_figures.py
Skript, das alle Tabellen und Bilder aus der PDF-Datei extrahiert und die beschnittenen Bilder in dem angegebenen Ausgabeverzeichnis speichert. - Standardmäßig wird das Modell TF-ID-large für die Extraktion verwendet, was durch Ändern des Skriptes geändert werden kann
model_id
um zu einer anderen Modellversion zu wechseln.
- Übergeben Sie den Pfad der PDF-Datei an den
- Ausbildungsmodelle::
- Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie die
coco_to_florence.py
Das Skript konvertiert den Datensatz in das Format Florence 2. - ausnutzen
accelerate launch train.py
startet das Modelltraining, und die Checkpoint-Datei wird während des Trainings gespeichert.
- Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie die