Allgemeine Einführung
TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen, die sich auf die Extraktion von Tabellen und Bildern aus akademischen Arbeiten spezialisiert hat. Das Projekt wurde von Yifei Hu ins Leben gerufen und auf GitHub veröffentlicht. TF-ID-Modelle sind auf die Erkennung und Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten abgestimmt und unterstützen die Extraktion mit oder ohne Beschriftungstext. Das Projekt bietet einen vollständigen Trainingscode, Modellgewichte und manuell beschriftete Datensätze, die alle unter der MIT-Lizenz zur Verfügung gestellt werden.
Funktionsliste
- Extrahieren von Tabellen und Bildern aus wissenschaftlichen Arbeiten
- Unterstützt die Extraktion mit oder ohne Kopftext
- Bereitstellung des vollständigen Trainingscodes und der Modellgewichte
- Unterstützung der Extraktion von Tabellen und Bildern aus PDF-Dateien
- Mehrere Modellversionen für unterschiedliche Anforderungen verfügbar
Hilfe verwenden
Ablauf der Installation
- Klon-Lagerhaus:
git klonen. https://github.com/ai8hyf/TF-ID cd TF-ID
- Download des Datensatzes: Laden Sie den Datensatz von Hugging Face herunter und entpacken Sie ihn in das entsprechende Verzeichnis.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d . /images
- Konvertieren Sie das Format des Datensatzes:
python coco_to_florence.py
- Ausbildungsmodelle:
Beschleunigen Start train.py
Verwendung Prozess
- Extrahiert Tabellen und Bilder aus einem einzigen Bild:
python inference.py --image_path path/to/image.png
- Extrahieren Sie alle Tabellen und Bilder aus PDF-Dateien:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir . /Beispiel_Ausgabe
Detaillierte Vorgehensweise
- Extrahieren von Tabellen und Bildern aus einem einzigen Bild::
- Übergibt den Bildpfad an die
inferenz.py
Skript, das das Standardmodell TF-ID-large verwendet, um die Tabellen und Bilder im Bild zu extrahieren. - Die Extraktionsergebnisse werden in Form eines Begrenzungsrahmens (Bounding Box) zurückgegeben, der die Position der Tabelle und des Bildes im Bild angibt.
- Übergibt den Bildpfad an die
- Extrahieren aller Tabellen und Bilder aus PDF-Dateien::
- Übergeben Sie den Pfad der PDF-Datei an den
pdf_zu_tabelle_figuren.py
Skript, das alle Tabellen und Bilder aus der PDF-Datei extrahiert und die beschnittenen Bilder in dem angegebenen Ausgabeverzeichnis speichert. - Standardmäßig wird das Modell TF-ID-large für die Extraktion verwendet, was durch Ändern des Skriptes geändert werden kann
model_id
um zu einer anderen Modellversion zu wechseln.
- Übergeben Sie den Pfad der PDF-Datei an den
- Ausbildungsmodelle::
- Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie die
coco_to_florence.py
Das Skript konvertiert den Datensatz in das Format Florence 2. - ausnutzen
Beschleunigen Start train.py
startet das Modelltraining, und die Checkpoint-Datei wird während des Trainings gespeichert.
- Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie die