Surya: Herramienta profesional de OCR de documentos multilingües, de código abierto y despliegue nativo
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 4.5K 00
Introducción general
Surya es un conjunto de herramientas OCR de código abierto para documentos multilingües que admite el reconocimiento de texto en más de 90 idiomas. No solo es capaz de detectar texto línea por línea, sino también de analizar el diseño, detectar el orden de lectura y reconocer tablas. El rendimiento de Surya rivaliza con el de los servicios basados en la nube para una amplia gama de tipos de documentos, incluidos PDF, imágenes, documentos de Word y PPT. El conjunto de herramientas está diseñado para ofrecer a los usuarios una solución completa de análisis sintáctico de documentos.
API de alojamiento: https://www.datalab.to/
Para PDF, imágenes, documentos de Word y PowerPoint

Lista de funciones
- OCR: reconocimiento de texto en más de 90 idiomas
- Detección de texto línea por línea: identifica automáticamente la posición de cada línea de texto en un documento.
- Análisis del diseño: detección de tablas, imágenes, títulos y otros elementos del documento.
- Detección del orden de lectura: identificación del orden de lectura en un documento
- Reconocimiento de tablas: detección de filas y columnas en una tabla
Utilizar la ayuda
Proceso de instalación
- Asegúrese de que Python 3.9+ y PyTorch están instalados.
- Si no utiliza una máquina Mac o GPU, puede que necesite instalar primero la versión CPU de torch.
- Utilice el siguiente comando para instalar Surya:
pip install surya-ocr
- La primera vez que ejecutas Surya, los pesos del modelo se descargan automáticamente.
Proceso de utilización
- Comprobar y configurar
surya/settings.py
en la variable de entorno, puede anular cualquier configuración con la variable de entorno. - Surya detecta automáticamente los dispositivos de antorcha, pero se pueden anular manualmente. Ejemplo:
TORCH_DEVICE=cuda
- Utilice el siguiente comando para ejecutar la aplicación OCR:
python run_ocr_app.py
- Al procesar un documento, puede elegir entre distintos módulos funcionales, como la detección de texto, el análisis del diseño, etc.
Función Flujo de operaciones
- Función OCR::
- Carga documentos (PDF, imágenes, etc.).
- Selecciona el idioma (se admiten más de 90 idiomas).
- Ejecute el reconocimiento OCR para extraer el contenido del texto.
- Detección de texto línea por línea::
- Carga el documento.
- Ejecute la detección de texto línea por línea para obtener la posición de cada línea de texto.
- Exportar los resultados de las pruebas.
- Análisis del trazado::
- Carga el documento.
- Ejecute un análisis de diseño para detectar elementos como tablas, imágenes, encabezados, etc. en un documento.
- Exportar los resultados del análisis.
- Pruebas de secuencias de lectura::
- Carga el documento.
- Ejecute la detección del orden de lectura para identificar el orden de lectura en un documento.
- Exportar los resultados de las pruebas.
- reconocimiento de formularios::
- Carga el documento.
- Ejecute el Reconocimiento de tablas para detectar filas y columnas en una tabla.
- Exportar los resultados del reconocimiento.
Surya ofrece numerosas funciones de análisis sintáctico de documentos, y los usuarios pueden elegir diferentes módulos de funciones según sus necesidades. Puede consultar la documentación oficial y el código de ejemplo para obtener procedimientos de funcionamiento detallados e instrucciones de configuración.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...