ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos
Últimos recursos sobre IAActualizado hace 9 meses Círculo de intercambio de inteligencia artificial 10.2K 00
Introducción general
ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) es un proyecto de código abierto cuyo objetivo es mejorar el procesamiento inteligente de documentos mediante modelos de preentrenamiento de diseño de texto generativo guiado visualmente. El proyecto fue desarrollado por el equipo Veason-silverbullet y presentado en NAACL 2024. El modelo ViTLP, capaz de localizar y reconocer texto OCR, proporciona puntos de control ViTLP-medium (380M) preentrenados, a los que los usuarios pueden acceder en Huggingface. El código y los pesos del modelo del proyecto están disponibles en GitHub y admiten el procesamiento OCR de imágenes de documentos y la generación de diseños de texto.

Lista de funciones
- Localización y reconocimiento de textos OCREl modelo ViTLP permite una localización y un reconocimiento eficaces del texto OCR.
- Modelo de preentrenamientoPuntos de control de preentrenamiento ViTLP-medio (380M): se proporcionan puntos de control de preentrenamiento ViTLP-medio (380M), que pueden ser utilizados directamente o ajustados por el usuario.
- Tratamiento de imágenes de documentos: Soporte para cargar imágenes de documentos y procesamiento OCR.
- Ajuste de modelosHerramientas de ajuste: Proporcionan herramientas de ajuste para apoyar la formación posterior en conjuntos de datos OCR y conjuntos de datos VQA.
- Herramientas de composición de documentos: Proporciona herramientas de síntesis de documentos con metadatos de cajas de posicionamiento.
Utilizar la ayuda
Proceso de instalación
- Clona el código del proyecto ViTLP:
git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
- Instale la dependencia:
pip install -r requirements.txt
- Descargar los puntos de control previos a la formación:
mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium
Proceso de utilización
- Reconocimiento de texto OCR::
- Ejecute el script OCR:
python ocr.py
- Cargue la imagen de un documento y el modelo realizará automáticamente el procesamiento OCR y emitirá los resultados.
- Ajuste de modelos::
- consulta
./finetuning
en el directorio para el entrenamiento posterior en el conjunto de datos OCR y el conjunto de datos VQA. - Utilice la herramienta de síntesis de documentos para generar documentos sintéticos con metadatos de cajas de posicionamiento para mejorar el entrenamiento del modelo.
- consulta
- Descodificación por lotes::
- Utilizar scripts de descodificación por lotes:
bash
bash decode.sh - El script procesará por lotes las imágenes de los documentos y emitirá los resultados del OCR.
- Utilizar scripts de descodificación por lotes:
Funcionamiento detallado
- Localización y reconocimiento de textos OCREl modelo detectará y reconocerá automáticamente el área de texto y mostrará el contenido del texto y la información sobre su ubicación una vez cargada la imagen del documento.
- Ajuste de modelosLos usuarios pueden utilizar las herramientas de ajuste proporcionadas para entrenar aún más el modelo de acuerdo con los requisitos de su conjunto de datos y mejorar el efecto de reconocimiento en escenarios específicos.
- Herramientas de composición de documentosGeneración de documentos con metadatos de cajas de posición mediante una herramienta de síntesis para ayudar a los modelos a comprender mejor la disposición y estructura del texto durante el entrenamiento.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...