AI Personal Learning
und praktische Anleitung

TF-ID: Akademisches Papierformular/Bilderkennungstool

Allgemeine Einführung

TF-ID (Table/Figure IDentifier) ist eine Familie von Objekterkennungsmodellen, die sich auf die Extraktion von Tabellen und Bildern aus akademischen Arbeiten spezialisiert hat. Das Projekt wurde von Yifei Hu ins Leben gerufen und auf GitHub veröffentlicht. TF-ID-Modelle sind auf die Erkennung und Extraktion von Tabellen und Bildern aus wissenschaftlichen Arbeiten abgestimmt und unterstützen die Extraktion mit oder ohne Beschriftungstext. Das Projekt bietet einen vollständigen Trainingscode, Modellgewichte und manuell beschriftete Datensätze, die alle unter der MIT-Lizenz zur Verfügung gestellt werden.

 


TF-ID: Akademisches Papierformular/Bilderkennungstool-1

 

 

Funktionsliste

  • Extrahieren von Tabellen und Bildern aus wissenschaftlichen Arbeiten
  • Unterstützt die Extraktion mit oder ohne Kopftext
  • Bereitstellung des vollständigen Trainingscodes und der Modellgewichte
  • Unterstützung der Extraktion von Tabellen und Bildern aus PDF-Dateien
  • Mehrere Modellversionen für unterschiedliche Anforderungen verfügbar

 

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lagerhaus:
    git klonen. https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Download des Datensatzes: Laden Sie den Datensatz von Hugging Face herunter und entpacken Sie ihn in das entsprechende Verzeichnis.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d . /images
    
  3. Konvertieren Sie das Format des Datensatzes:
    python coco_to_florence.py
    
  4. Ausbildungsmodelle:
    Beschleunigen Start train.py
    

Verwendung Prozess

  1. Extrahiert Tabellen und Bilder aus einem einzigen Bild:
    python inference.py --image_path path/to/image.png
    
  2. Extrahieren Sie alle Tabellen und Bilder aus PDF-Dateien:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir . /Beispiel_Ausgabe
    

Detaillierte Vorgehensweise

  1. Extrahieren von Tabellen und Bildern aus einem einzigen Bild::
    • Übergibt den Bildpfad an dieinferenz.pySkript, das das Standardmodell TF-ID-large verwendet, um die Tabellen und Bilder im Bild zu extrahieren.
    • Die Extraktionsergebnisse werden in Form eines Begrenzungsrahmens (Bounding Box) zurückgegeben, der die Position der Tabelle und des Bildes im Bild angibt.
  2. Extrahieren aller Tabellen und Bilder aus PDF-Dateien::
    • Übergeben Sie den Pfad der PDF-Datei an denpdf_zu_tabelle_figuren.pySkript, das alle Tabellen und Bilder aus der PDF-Datei extrahiert und die beschnittenen Bilder in dem angegebenen Ausgabeverzeichnis speichert.
    • Standardmäßig wird das Modell TF-ID-large für die Extraktion verwendet, was durch Ändern des Skriptes geändert werden kannmodel_idum zu einer anderen Modellversion zu wechseln.
  3. Ausbildungsmodelle::
    • Nachdem Sie das Repository geklont und den Datensatz heruntergeladen haben, verwenden Sie diecoco_to_florence.pyDas Skript konvertiert den Datensatz in das Format Florence 2.
    • ausnutzenBeschleunigen Start train.pystartet das Modelltraining, und die Checkpoint-Datei wird während des Trainings gespeichert.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " TF-ID: Akademisches Papierformular/Bilderkennungstool

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)