Surya: Herramienta profesional de OCR de documentos multilingües, de código abierto y despliegue nativo

Introducción general

Surya es un conjunto de herramientas OCR de código abierto para documentos multilingües que admite el reconocimiento de texto en más de 90 idiomas. No solo es capaz de detectar texto línea por línea, sino también de analizar el diseño, detectar el orden de lectura y reconocer tablas. El rendimiento de Surya rivaliza con el de los servicios basados en la nube para una amplia gama de tipos de documentos, incluidos PDF, imágenes, documentos de Word y PPT. El conjunto de herramientas está diseñado para ofrecer a los usuarios una solución completa de análisis sintáctico de documentos.

API de alojamiento: https://www.datalab.to/

Para PDF, imágenes, documentos de Word y PowerPoint

Surya:专业多语言文档OCR工具,开源本地部署

 

Lista de funciones

  • OCR: reconocimiento de texto en más de 90 idiomas
  • Detección de texto línea por línea: identifica automáticamente la posición de cada línea de texto en un documento.
  • Análisis del diseño: detección de tablas, imágenes, títulos y otros elementos del documento.
  • Detección del orden de lectura: identificación del orden de lectura en un documento
  • Reconocimiento de tablas: detección de filas y columnas en una tabla

 

Utilizar la ayuda

Proceso de instalación

  1. Asegúrese de que Python 3.9+ y PyTorch están instalados.
  2. Si no utiliza una máquina Mac o GPU, puede que necesite instalar primero la versión CPU de torch.
  3. Utilice el siguiente comando para instalar Surya:
    pip install surya-ocr
    
  4. La primera vez que ejecutas Surya, los pesos del modelo se descargan automáticamente.

Proceso de utilización

  1. Comprobar y configurarsurya/settings.pyen la variable de entorno, puede anular cualquier configuración con la variable de entorno.
  2. Surya detecta automáticamente los dispositivos de antorcha, pero se pueden anular manualmente. Ejemplo:
    TORCH_DEVICE=cuda
    
  3. Utilice el siguiente comando para ejecutar la aplicación OCR:
    python run_ocr_app.py
    
  4. Al procesar un documento, puede elegir entre distintos módulos funcionales, como la detección de texto, el análisis del diseño, etc.

Función Flujo de operaciones

  1. Función OCR::
    • Carga documentos (PDF, imágenes, etc.).
    • Selecciona el idioma (se admiten más de 90 idiomas).
    • Ejecute el reconocimiento OCR para extraer el contenido del texto.
  2. Detección de texto línea por línea::
    • Carga el documento.
    • Ejecute la detección de texto línea por línea para obtener la posición de cada línea de texto.
    • Exportar los resultados de las pruebas.
  3. Análisis del trazado::
    • Carga el documento.
    • Ejecute un análisis de diseño para detectar elementos como tablas, imágenes, encabezados, etc. en un documento.
    • Exportar los resultados del análisis.
  4. Pruebas de secuencias de lectura::
    • Carga el documento.
    • Ejecute la detección del orden de lectura para identificar el orden de lectura en un documento.
    • Exportar los resultados de las pruebas.
  5. reconocimiento de formularios::
    • Carga el documento.
    • Ejecute el Reconocimiento de tablas para detectar filas y columnas en una tabla.
    • Exportar los resultados del reconocimiento.

Surya ofrece numerosas funciones de análisis sintáctico de documentos, y los usuarios pueden elegir diferentes módulos de funciones según sus necesidades. Puede consultar la documentación oficial y el código de ejemplo para obtener procedimientos de funcionamiento detallados e instrucciones de configuración.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...