AI Personal Learning
und praktische Anleitung

ViTLP: Extraktion von strukturierten Daten aus typografisch komplexen PDF-Dokumenten und visuell geführte Generierung von vortrainierten Modellen für das Textlayout

Allgemeine Einführung

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) ist ein Open-Source-Projekt, das darauf abzielt, die Verarbeitung von Dokumentenintelligenz durch visuell geführte generative Text-Layout Pre-training-Modelle zu verbessern. Das Projekt wurde vom Veason-silverbullet-Team entwickelt und auf der NAACL 2024 vorgestellt. Das ViTLP-Modell, das in der Lage ist, OCR-Text zu lokalisieren und zu erkennen, bietet vortrainierte ViTLP-medium (380M)-Kontrollpunkte, auf die Benutzer über Huggingface zugreifen können. Der Code und die Modellgewichte für das Projekt sind auf GitHub verfügbar und unterstützen die OCR-Verarbeitung von Dokumentenbildern und die Erzeugung von Textlayouts.

ViTLP: OCR-Erkennung von PDF-Dokumenten zur Extraktion strukturierter Daten, ViTLP ist ein quelloffenes, visuell geführtes Pre-Training-Modell zur Erzeugung von Textlayouts-1


 

Funktionsliste

  • OCR-Textlokalisierung und -ErkennungViTLP: Das ViTLP-Modell ermöglicht eine effiziente OCR-Textlokalisierung und -Erkennung.
  • Pre-Training ModellViTLP-medium (380M) Pre-Trainings-Checkpoints werden zur Verfügung gestellt, die direkt verwendet oder vom Benutzer feinabgestimmt werden können.
  • Bildverarbeitung von DokumentenUnterstützung für das Hochladen von Dokumentenbildern und OCR-Verarbeitung.
  • Feinabstimmung der ModelleBereitstellung von Tools für die Feinabstimmung zur Unterstützung des späteren Trainings auf OCR- und VQA-Datensätzen.
  • Werkzeuge für die DokumentenerstellungBietet Tools für die Dokumentensynthese mit Positionsfeld-Metadaten.

 

Hilfe verwenden

Ablauf der Installation

  1. Klonen Sie den Code des ViTLP-Projekts:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. Installieren Sie die Abhängigkeit:
   pip install -r anforderungen.txt
  1. Download Checkpoints vor der Ausbildung:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Verwendung Prozess

  1. OCR-Texterkennung::
    • Führen Sie das OCR-Skript aus:
     python ocr.py
    
    • Laden Sie ein Dokumentenbild hoch, und das Modell führt automatisch eine OCR-Verarbeitung durch und gibt die Ergebnisse aus.
  2. Feinabstimmung der Modelle::
    • Beratung. /finetuningAnweisungsdatei im Verzeichnis für das anschließende Training mit dem OCR-Datensatz und dem VQA-Datensatz.
    • Verwenden Sie das Dokumentensynthesetool, um synthetische Dokumente mit Positionsfeld-Metadaten zu erzeugen, um das Modelltraining zu verbessern.
  3. Batch-Dekodierung::
    • Verwenden Sie Batch-Dekodierungsskripte: bash
      bash decode.sh
    • Das Skript verarbeitet Dokumentbilder im Stapel und gibt OCR-Ergebnisse aus.

Detaillierte Funktionsweise

  • OCR-Textlokalisierung und -ErkennungNach dem Hochladen des Dokumentenbildes erkennt das Modell automatisch den Textbereich und gibt den Textinhalt und die Positionsinformationen aus.
  • Feinabstimmung der ModelleBenutzer können die zur Verfügung gestellten Werkzeuge zur Feinabstimmung nutzen, um das Modell entsprechend den Anforderungen ihres Datensatzes weiter zu trainieren und die Erkennungsleistung in bestimmten Szenarien zu verbessern.
  • Werkzeuge für die DokumentenerstellungGenerierung von Dokumenten mit Positionsfeld-Metadaten über ein Synthesetool, damit die Modelle das Textlayout und die Struktur während des Trainings besser verstehen.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " ViTLP: Extraktion von strukturierten Daten aus typografisch komplexen PDF-Dokumenten und visuell geführte Generierung von vortrainierten Modellen für das Textlayout

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)