ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

54.8K 00

Introducción general

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) es un proyecto de código abierto cuyo objetivo es mejorar el procesamiento inteligente de documentos mediante modelos de preentrenamiento de diseño de texto generativo guiado visualmente. El proyecto fue desarrollado por el equipo Veason-silverbullet y presentado en NAACL 2024. El modelo ViTLP, capaz de localizar y reconocer texto OCR, proporciona puntos de control ViTLP-medium (380M) preentrenados, a los que los usuarios pueden acceder en Huggingface. El código y los pesos del modelo del proyecto están disponibles en GitHub y admiten el procesamiento OCR de imágenes de documentos y la generación de diseños de texto.

Lista de funciones

Localización y reconocimiento de textos OCREl modelo ViTLP permite una localización y un reconocimiento eficaces del texto OCR.
Modelo de preentrenamientoPuntos de control de preentrenamiento ViTLP-medio (380M): se proporcionan puntos de control de preentrenamiento ViTLP-medio (380M), que pueden ser utilizados directamente o ajustados por el usuario.
Tratamiento de imágenes de documentos: Soporte para cargar imágenes de documentos y procesamiento OCR.
Ajuste de modelosHerramientas de ajuste: Proporcionan herramientas de ajuste para apoyar la formación posterior en conjuntos de datos OCR y conjuntos de datos VQA.
Herramientas de composición de documentos: Proporciona herramientas de síntesis de documentos con metadatos de cajas de posicionamiento.

Utilizar la ayuda

Proceso de instalación

Clona el código del proyecto ViTLP:

   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP

Instale la dependencia:

   pip install -r requirements.txt

Descargar los puntos de control previos a la formación:

   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Proceso de utilización

Reconocimiento de texto OCR::
- Ejecute el script OCR:
```
 python ocr.py
```
- Cargue la imagen de un documento y el modelo realizará automáticamente el procesamiento OCR y emitirá los resultados.
Ajuste de modelos::
- consulta./finetuningen el directorio para el entrenamiento posterior en el conjunto de datos OCR y el conjunto de datos VQA.
- Utilice la herramienta de síntesis de documentos para generar documentos sintéticos con metadatos de cajas de posicionamiento para mejorar el entrenamiento del modelo.
Descodificación por lotes::
- Utilizar scripts de descodificación por lotes: bash bash decode.sh
- El script procesará por lotes las imágenes de los documentos y emitirá los resultados del OCR.

Funcionamiento detallado

Localización y reconocimiento de textos OCREl modelo detectará y reconocerá automáticamente el área de texto y mostrará el contenido del texto y la información sobre su ubicación una vez cargada la imagen del documento.
Ajuste de modelosLos usuarios pueden utilizar las herramientas de ajuste proporcionadas para entrenar aún más el modelo de acuerdo con los requisitos de su conjunto de datos y mejorar el efecto de reconocimiento en escenarios específicos.
Herramientas de composición de documentosGeneración de documentos con metadatos de cajas de posición mediante una herramienta de síntesis para ayudar a los modelos a comprender mejor la disposición y estructura del texto durante el entrenamiento.

Últimos recursos sobre IA # OCR # Extracción y limpieza de documentos

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Verse: una herramienta de toma de notas con inteligencia artificial de Impression Notes que incorpora un asistente de escritura inteligente.

Últimos recursos sobre IA # AI Notas

Hace 1 año

050.3K

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

Últimos recursos sobre IA

hace 7mos

034.7K

Migo - Asistente de investigación académica de IA, preguntas y respuestas inteligentes para diversas necesidades

Últimos recursos sobre IA

hace 10mos

045.6K

TRAE SOLO - Asistente de desarrollo automatizado de Wordhop TRAE

Últimos recursos sobre IA

hace 9mos

072.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Funcionamiento detallado

World Labs: Construye un modelo 3D del mundo a partir de una sola imagen, ¡solicita la prueba beta del modelo de Inteligencia Espacial!

Fitten Code: un asistente de IA integrado en VS Code para mejorar la eficacia de la programación, compatible con modelos no top 10

Puestos relacionados

Verse: una herramienta de toma de notas con inteligencia artificial de Impression Notes que incorpora un asistente de escritura inteligente.

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

Migo - Asistente de investigación académica de IA, preguntas y respuestas inteligentes para diversas necesidades

TRAE SOLO - Asistente de desarrollo automatizado de Wordhop TRAE

Sin comentarios

Últimas colecciones

Últimos artículos

ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Funcionamiento detallado

World Labs: Construye un modelo 3D del mundo a partir de una sola imagen, ¡solicita la prueba beta del modelo de Inteligencia Espacial!

Fitten Code: un asistente de IA integrado en VS Code para mejorar la eficacia de la programación, compatible con modelos no top 10

Puestos relacionados

Verse: una herramienta de toma de notas con inteligencia artificial de Impression Notes que incorpora un asistente de escritura inteligente.

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

Migo - Asistente de investigación académica de IA, preguntas y respuestas inteligentes para diversas necesidades

TRAE SOLO - Asistente de desarrollo automatizado de Wordhop TRAE

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos