AI Personal Learning
und praktische Anleitung
豆包Marscode1

TF-ID: Akademisches Papierformular/Bilderkennungstool

Allgemeine Einführung

TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen für die Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten. Das Projekt wurde von Yifei Hu ins Leben gerufen und auf GitHub veröffentlicht. Die TF-ID-Modelle sind so abgestimmt, dass sie Tabellen und Bilder aus wissenschaftlichen Arbeiten erkennen und extrahieren können, wobei die Extraktion mit oder ohne Beschriftungstext möglich ist. Das Projekt bietet einen vollständigen Trainingscode, Modellgewichte und manuell beschriftete Datensätze, die alle unter der MIT-Lizenz zur Verfügung gestellt werden.

 


TF-ID:学术论文表格/图像识别工具-1

 

 

Funktionsliste

  • Extrahieren von Tabellen und Bildern aus wissenschaftlichen Arbeiten
  • Unterstützt die Extraktion mit oder ohne Kopftext
  • Bereitstellung des vollständigen Trainingscodes und der Modellgewichte
  • Unterstützung der Extraktion von Tabellen und Bildern aus PDF-Dateien
  • Mehrere Modellversionen für unterschiedliche Anforderungen verfügbar

 

 

Hilfe verwenden

Einbauverfahren

  1. Klon-Lagerhaus:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Download des Datensatzes: Laden Sie den Datensatz von Hugging Face herunter und entpacken Sie ihn in das entsprechende Verzeichnis.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. Konvertieren Sie das Format des Datensatzes:
    python coco_to_florence.py
    
  4. Ausbildungsmodelle:
    accelerate launch train.py
    

Verwendungsprozess

  1. Extrahiert Tabellen und Bilder aus einem einzigen Bild:
    python inference.py --image_path path/to/image.png
    
  2. Extrahieren Sie alle Tabellen und Bilder aus PDF-Dateien:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Detaillierte Vorgehensweise

  1. Extrahieren von Tabellen und Bildern aus einem einzigen Bild::
    • Übergibt den Bildpfad an dieinference.pySkript, das das Standardmodell TF-ID-large verwendet, um die Tabellen und Bilder im Bild zu extrahieren.
    • Die Extraktionsergebnisse werden in Form eines Begrenzungsrahmens zurückgegeben, der die Position der Tabelle und des Bildes im Bild angibt.
  2. Extrahieren aller Tabellen und Bilder aus PDF-Dateien::
    • Übergeben Sie den Pfad der PDF-Datei an denpdf_to_table_figures.pySkript, das alle Tabellen und Bilder aus der PDF-Datei extrahiert und die beschnittenen Bilder in dem angegebenen Ausgabeverzeichnis speichert.
    • Standardmäßig wird das Modell TF-ID-large für die Extraktion verwendet, was durch Ändern des Skriptes geändert werden kannmodel_idum zu einer anderen Modellversion zu wechseln.
  3. Ausbildungsmodelle::
    • Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie diecoco_to_florence.pyDas Skript konvertiert den Datensatz in das Format Florence 2.
    • ausnutzenaccelerate launch train.pystartet das Modelltraining, und die Checkpoint-Datei wird während des Trainings gespeichert.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " TF-ID: Akademisches Papierformular/Bilderkennungstool
de_DEDeutsch