Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

56.9K 00

Introducción general

Analiza automáticamente el diseño de los documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR , puede escanear PDF en texto de búsqueda . Se ejecuta en Docker y proporciona dos modelos: modelo visual (Vision Grid Transformer, o VGT) y modelo LightGBM. El primero es muy preciso pero consume muchos recursos, el segundo es rápido y ahorra recursos. La versión actual es la v0.0.21, gratuita y abierta en GitHub, adecuada para investigadores que necesiten tratar con PDF, archiveros, etc.

Lista de funciones

Identifique automáticamente texto, títulos, imágenes, tablas, fórmulas y otros elementos en páginas PDF.
Soporta la función OCR para convertir PDF escaneados en texto con capacidad de búsqueda.
Determinar el orden correcto de lectura de los elementos de la página.
Se ofrecen dos modos de análisis, el modelo visual (VGT) y el modelo LightGBM.
Extrae tablas y admite varios formatos de salida, como Markdown, LaTeX y HTML.
Extrae fórmulas y da salida al formato LaTeX por defecto.
Admite OCR en varios idiomas, como inglés, coreano, etc.
Proporciona una interfaz API para la integración en otros proyectos.
Admite salida visual, generando PDF con anotaciones.

Utilizar la ayuda

Proceso de instalación

Esta herramienta se ejecuta con Docker y los pasos de instalación son los siguientes:

Preparar el entorno
Primero instale Docker. Vaya al sitio web de Docker para descargarlo e instalarlo. Después de la instalación, escriba en el terminal:

docker --version

Si se muestra el número de versión, es correcto. Si utilizas una GPU, también necesitas instalar el NVIDIA Container Toolkit, consulta la secciónGuía de instalación.

Tirar de los espejos
Introduzca el comando en el terminal para extraer la imagen de la herramienta:

Ahí está la GPU:

docker pull huridocs/pdf-document-layout-analysis:v0.0.21

Sin GPU:

docker pull huridocs/pdf-document-layout-analysis:v0.0.21

Servicios operativos
Inicie el servicio de dos maneras:

Ahí está la GPU:

docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21

Sin GPU:

docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21

Cuando el servicio se inicia, escucha en el puerto 5060 por defecto. Si el puerto está ocupado, se puede cambiar a otro puerto, como 5061.

servicio de validación
Abra su navegador y visitehttp://localhost:5060/infosi se devuelve la información de la versión, significa que está funcionando normalmente.

Cómo utilizar las principales funciones

La herramienta funciona a través de una API con las siguientes funciones comunes:

1. Función OCR

Para convertir un PDF escaneado en texto que permita realizar búsquedas, puede utilizar OCR.

procedimiento::
Prepare un PDF comotest.pdfejecútelo en el terminal:

curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf

language=enes inglés y puede sustituirse porkor(coreano), etc. Los idiomas admitidos están disponibles a través decurl localhost:5060/infoVer.
/path/to/test.pdfes la ruta del archivo, por ejemplo/home/user/test.pdf.
archivo de salidaresult.pdfse guardará en el directorio actual.
al final::
Obtenga un PDF con texto que se puede copiar.

2. Análisis del trazado

Para extraer elementos del PDF y analizar la maquetación:

procedimiento::
Corriendo:

curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json

archivo de salidaanalysis.jsonContiene información sobre el elemento, como la ubicación, el tipo (texto, tabla, etc.).
al final::
El archivo JSON enumera los detalles de cada elemento.

3. Modo rápido

Si desea un procesamiento más rápido, utilice el modelo LightGBM, añada el parámetrofast=true::

curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json

tenga en cuentaRápido, pero algo menos preciso.

4. Extracción de tablas y fórmulas

Formulario de baja::
Especifique el formato (por ejemplo, Markdown):

curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json

adyuvantemarkdownylatexyhtmlFormato.

Fórmula de extracción::
La salida por defecto es el formato LaTeX, que puede utilizarse directamente con el comando Análisis de diseño.

5. Salida visual

Me gustaría ver el PDF marcado:

curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf

al final::
El PDF de salida se etiquetará con la ubicación y el tipo de cada elemento.

6. Añadir compatibilidad lingüística

Se admiten pocos idiomas por defecto, desea añadir más idiomas (por ejemplo, chino):

Entra en el contenedor:

docker exec -it --user root pdf-analysis /bin/bash

Instala paquetes de idiomas, por ejemplo, chino:

apt-get install tesseract-ocr-chi-sim

Compruébalo:

curl localhost:5060/info

ver quechi_simIndica éxito.

7. Interrupción de los servicios

Interrupción de los servicios:

docker stop pdf-analysis

Orden de los elementos de salida

Los resultados de los análisis se presentan en un orden determinado. La herramienta utiliza Poppler para determinar el orden de lectura inicial, que luego se ajusta en función del tipo de elemento:

La cabecera se encuentra en la parte superior de la página, clasificada por orden interno.
Los elementos comunes (texto, cuadros, etc.) están dispuestos en orden medio de lectura.
El pie de página y la nota a pie de página se colocan en último lugar.
Los elementos sin texto (por ejemplo, imágenes) se ordenan según el orden del elemento con texto más cercano.

advertencia

requisitos de hardwareEl modelo Visual requiere GPU y 5GB de memoria de video, será lento con CPU sin GPU. lightGBM es sólo CPU y requiere 2GB de RAM.
tempo: 15 páginas de trabajos académicos, 0,42 seg/página en modo rápido, 1,75 seg/página en VGT (GPU), 13,5 seg/página en VGT (CPU).
ajustar los componentes durante las pruebas: Visualiza el registro cuando algo va mal:

docker logs pdf-analysis

Estas funciones y pasos le ayudarán a empezar rápidamente y a gestionar una gran variedad de necesidades de PDF.

escenario de aplicación

investigación académica
Los investigadores lo utilizan para extraer tablas y fórmulas de los documentos y organizar los datos de forma más eficaz.
gestión de archivos
Los archiveros convierten los documentos antiguos escaneados en archivos PDF de fácil búsqueda.
Trabajo jurídico
Los abogados analizan los PDF de los contratos para localizar rápidamente cláusulas y formularios.

CONTROL DE CALIDAD

¿Hay que pagar?
Sin coste alguno. Se trata de una herramienta de código abierto, de descarga y uso gratuitos en GitHub.
¿Necesito trabajar en red?
Se requiere conexión a Internet para descargar la imagen, tras lo cual puede ejecutarse sin conexión.
¿Es compatible con el chino?
Soporte. Se requiere la instalación manual de paquetes chinos (p. ej.tesseract-ocr-chi-sim), algo menos eficaz que el inglés, pero utilizable.