ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos

Introducción general

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) es un proyecto de código abierto cuyo objetivo es mejorar el procesamiento inteligente de documentos mediante modelos de preentrenamiento de diseño de texto generativo guiado visualmente. El proyecto fue desarrollado por el equipo Veason-silverbullet y presentado en NAACL 2024. El modelo ViTLP, capaz de localizar y reconocer texto OCR, proporciona puntos de control ViTLP-medium (380M) preentrenados, a los que los usuarios pueden acceder en Huggingface. El código y los pesos del modelo del proyecto están disponibles en GitHub y admiten el procesamiento OCR de imágenes de documentos y la generación de diseños de texto.

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

 

Lista de funciones

  • Localización y reconocimiento de textos OCREl modelo ViTLP permite una localización y un reconocimiento eficaces del texto OCR.
  • Modelo de preentrenamientoPuntos de control de preentrenamiento ViTLP-medio (380M): se proporcionan puntos de control de preentrenamiento ViTLP-medio (380M), que pueden ser utilizados directamente o ajustados por el usuario.
  • Tratamiento de imágenes de documentos: Soporte para cargar imágenes de documentos y procesamiento OCR.
  • Ajuste de modelosHerramientas de ajuste: Proporcionan herramientas de ajuste para apoyar la formación posterior en conjuntos de datos OCR y conjuntos de datos VQA.
  • Herramientas de composición de documentos: Proporciona herramientas de síntesis de documentos con metadatos de cajas de posicionamiento.

 

Utilizar la ayuda

Proceso de instalación

  1. Clona el código del proyecto ViTLP:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. Instale la dependencia:
   pip install -r requirements.txt
  1. Descargar los puntos de control previos a la formación:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Proceso de utilización

  1. Reconocimiento de texto OCR::
    • Ejecute el script OCR:
     python ocr.py
    
    • Cargue la imagen de un documento y el modelo realizará automáticamente el procesamiento OCR y emitirá los resultados.
  2. Ajuste de modelos::
    • consulta./finetuningen el directorio para el entrenamiento posterior en el conjunto de datos OCR y el conjunto de datos VQA.
    • Utilice la herramienta de síntesis de documentos para generar documentos sintéticos con metadatos de cajas de posicionamiento para mejorar el entrenamiento del modelo.
  3. Descodificación por lotes::
    • Utilizar scripts de descodificación por lotes: bash
      bash decode.sh
    • El script procesará por lotes las imágenes de los documentos y emitirá los resultados del OCR.

Funcionamiento detallado

  • Localización y reconocimiento de textos OCREl modelo detectará y reconocerá automáticamente el área de texto y mostrará el contenido del texto y la información sobre su ubicación una vez cargada la imagen del documento.
  • Ajuste de modelosLos usuarios pueden utilizar las herramientas de ajuste proporcionadas para entrenar aún más el modelo de acuerdo con los requisitos de su conjunto de datos y mejorar el efecto de reconocimiento en escenarios específicos.
  • Herramientas de composición de documentosGeneración de documentos con metadatos de cajas de posición mediante una herramienta de síntesis para ayudar a los modelos a comprender mejor la disposición y estructura del texto durante el entrenamiento.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...