Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 1.1K 00
Introducción general
Analiza automáticamente el diseño de los documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR , puede escanear PDF en texto de búsqueda . Se ejecuta en Docker y proporciona dos modelos: modelo visual (Vision Grid Transformer, o VGT) y modelo LightGBM. El primero es muy preciso pero consume muchos recursos, el segundo es rápido y ahorra recursos. La versión actual es la v0.0.21, gratuita y abierta en GitHub, adecuada para investigadores que necesiten tratar con PDF, archiveros, etc.

Lista de funciones
- Identifique automáticamente texto, títulos, imágenes, tablas, fórmulas y otros elementos en páginas PDF.
- Soporta la función OCR para convertir PDF escaneados en texto con capacidad de búsqueda.
- Determinar el orden correcto de lectura de los elementos de la página.
- Se ofrecen dos modos de análisis, el modelo visual (VGT) y el modelo LightGBM.
- Extrae tablas y admite varios formatos de salida, como Markdown, LaTeX y HTML.
- Extrae fórmulas y da salida al formato LaTeX por defecto.
- Admite OCR en varios idiomas, como inglés, coreano, etc.
- Proporciona una interfaz API para la integración en otros proyectos.
- Admite salida visual, generando PDF con anotaciones.
Utilizar la ayuda
Proceso de instalación
Esta herramienta se ejecuta con Docker y los pasos de instalación son los siguientes:
- Preparar el entorno
Primero instale Docker. Vaya al sitio web de Docker para descargarlo e instalarlo. Después de la instalación, escriba en el terminal:
docker --version
Si se muestra el número de versión, es correcto. Si utilizas una GPU, también necesitas instalar el NVIDIA Container Toolkit, consulta la secciónGuía de instalación.
- Tirar de los espejos
Introduzca el comando en el terminal para extraer la imagen de la herramienta:
- Ahí está la GPU:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- Sin GPU:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- Servicios operativos
Inicie el servicio de dos maneras:
- Ahí está la GPU:
docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
- Sin GPU:
docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
Cuando el servicio se inicia, escucha en el puerto 5060 por defecto. Si el puerto está ocupado, se puede cambiar a otro puerto, como 5061.
- servicio de validación
Abra su navegador y visitehttp://localhost:5060/info
si se devuelve la información de la versión, significa que está funcionando normalmente.
Cómo utilizar las principales funciones
La herramienta funciona a través de una API con las siguientes funciones comunes:
1. Función OCR
Para convertir un PDF escaneado en texto que permita realizar búsquedas, puede utilizar OCR.
- procedimiento::
Prepare un PDF comotest.pdf
ejecútelo en el terminal:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
language=en
es inglés y puede sustituirse porkor
(coreano), etc. Los idiomas admitidos están disponibles a través decurl localhost:5060/info
Ver./path/to/test.pdf
es la ruta del archivo, por ejemplo/home/user/test.pdf
.- archivo de salida
result.pdf
se guardará en el directorio actual. - al final::
Obtenga un PDF con texto que se puede copiar.
2. Análisis del trazado
Para extraer elementos del PDF y analizar la maquetación:
- procedimiento::
Corriendo:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
- archivo de salida
analysis.json
Contiene información sobre el elemento, como la ubicación, el tipo (texto, tabla, etc.). - al final::
El archivo JSON enumera los detalles de cada elemento.
3. Modo rápido
Si desea un procesamiento más rápido, utilice el modelo LightGBM, añada el parámetrofast=true
::
curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
- tenga en cuentaRápido, pero algo menos preciso.
4. Extracción de tablas y fórmulas
- Formulario de baja::
Especifique el formato (por ejemplo, Markdown):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json
adyuvantemarkdown
ylatex
yhtml
Formato.
- Fórmula de extracción::
La salida por defecto es el formato LaTeX, que puede utilizarse directamente con el comando Análisis de diseño.
5. Salida visual
Me gustaría ver el PDF marcado:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
- al final::
El PDF de salida se etiquetará con la ubicación y el tipo de cada elemento.
6. Añadir compatibilidad lingüística
Se admiten pocos idiomas por defecto, desea añadir más idiomas (por ejemplo, chino):
- Entra en el contenedor:
docker exec -it --user root pdf-analysis /bin/bash
- Instala paquetes de idiomas, por ejemplo, chino:
apt-get install tesseract-ocr-chi-sim
- Compruébalo:
curl localhost:5060/info
ver quechi_sim
Indica éxito.
7. Interrupción de los servicios
Interrupción de los servicios:
docker stop pdf-analysis
Orden de los elementos de salida
Los resultados de los análisis se presentan en un orden determinado. La herramienta utiliza Poppler para determinar el orden de lectura inicial, que luego se ajusta en función del tipo de elemento:
- La cabecera se encuentra en la parte superior de la página, clasificada por orden interno.
- Los elementos comunes (texto, cuadros, etc.) están dispuestos en orden medio de lectura.
- El pie de página y la nota a pie de página se colocan en último lugar.
- Los elementos sin texto (por ejemplo, imágenes) se ordenan según el orden del elemento con texto más cercano.
advertencia
- requisitos de hardwareEl modelo Visual requiere GPU y 5GB de memoria de video, será lento con CPU sin GPU. lightGBM es sólo CPU y requiere 2GB de RAM.
- tempo: 15 páginas de trabajos académicos, 0,42 seg/página en modo rápido, 1,75 seg/página en VGT (GPU), 13,5 seg/página en VGT (CPU).
- ajustar los componentes durante las pruebas: Visualiza el registro cuando algo va mal:
docker logs pdf-analysis
Estas funciones y pasos le ayudarán a empezar rápidamente y a gestionar una gran variedad de necesidades de PDF.
escenario de aplicación
- investigación académica
Los investigadores lo utilizan para extraer tablas y fórmulas de los documentos y organizar los datos de forma más eficaz. - gestión de archivos
Los archiveros convierten los documentos antiguos escaneados en archivos PDF de fácil búsqueda. - Trabajo jurídico
Los abogados analizan los PDF de los contratos para localizar rápidamente cláusulas y formularios.
CONTROL DE CALIDAD
- ¿Hay que pagar?
Sin coste alguno. Se trata de una herramienta de código abierto, de descarga y uso gratuitos en GitHub. - ¿Necesito trabajar en red?
Se requiere conexión a Internet para descargar la imagen, tras lo cual puede ejecutarse sin conexión. - ¿Es compatible con el chino?
Soporte. Se requiere la instalación manual de paquetes chinos (p. ej.tesseract-ocr-chi-sim
), algo menos eficaz que el inglés, pero utilizable.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...