GOT-OCR2.0: basado en el modelo OCR multimodal de extremo a extremo QWen2 0.5B

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

65.6K 00

Introducción general

GOT-OCR2.0 es un modelo de reconocimiento óptico de caracteres (OCR) de código abierto co-propuesto por StepStar, cuyo objetivo es impulsar la tecnología OCR hacia OCR-2.0 a través de un modelo unificado de extremo a extremo. El modelo soporta una amplia gama de tareas de OCR, incluyendo el reconocimiento de texto plano, reconocimiento de texto formateado, OCR de grano fino, OCR multi-recorte, y OCR multi-página.GOT-OCR2.0 está diseñado con el objetivo de proporcionar una solución versátil y eficiente para una amplia gama de escenarios complejos de aplicación de OCR.

Basado en el modelo QWen2 0,5 B. Denominado OCR 2.0, el modelo OCR de extremo a extremo con 580M parámetros obtuvo una puntuación BLEU de 0,972. Dirección de la experiencia en línea: https://huggingface.co/spaces/ucaslcl/GOT_online

Lista de funciones

Reconocimiento de texto sin formato: Reconoce el contenido de texto sin formato en imágenes.
Reconocimiento de texto con formato: reconoce y conserva la información de formato del texto, como tablas, párrafos, etc.
OCR fino: Reconozca texto fino en imágenes y texto sobre fondos complejos.
OCR de recorte múltiple: admite el recorte múltiple de una imagen y reconoce el texto en cada área recortada.
OCR multipágina: admite el OCR de documentos multipágina.

Utilizar la ayuda

Proceso de instalación

Clona el código del proyecto:

git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

Crear y activar un entorno virtual:

conda create -n got python=3.10 -y
conda activate got

Instale las dependencias del proyecto:
```
pip install -e .
```

Instalar Flash-Atención:

pip install ninja
pip install flash-attn --no-build-isolation

Obtención de las ponderaciones del modelo GOT

Cara abrazada
Google Drive
Nube Baidu(Código de extracción: OCR2)

Proceso de utilización

Preparar los datos de entrada: Coloque la imagen o el documento que va a ser objeto de OCR en el directorio de entrada especificado.

Ejecute el modelo OCR:

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr

Ver salida: El texto procesado por OCR se guardará en el directorio de salida especificado, y los usuarios podrán seguir procesándolo según sea necesario.

Funciones

Reconocimiento de texto sin formatoReconoce y genera contenido de texto ordinario en imágenes como archivos de texto sin formato, adecuados para tareas sencillas de extracción de texto.
Reconocimiento de texto con formatoConservar la información de formato, como tablas, párrafos, etc., mientras se reconoce el texto, para situaciones en las que es necesario conservar el formato original del documento.
OCR detallado: Reconocimiento de texto fino en fondos complejos, adecuado para escenas que requieren una extracción de texto de alta precisión.
OCR multicultivoRecorta la imagen varias veces y reconoce el texto en cada región recortada, lo que resulta adecuado para situaciones que requieren el reconocimiento multirregión de imágenes.
OCR multipágina: Admite OCR de documentos multipágina, adecuado para escenarios en los que se procesan documentos largos o archivos PDF multipágina.

Con los pasos anteriores, los usuarios pueden instalar y utilizar fácilmente el modelo GOT-OCR2.0 para diversas tareas de OCR. El modelo proporciona un rico conjunto de módulos funcionales que pueden satisfacer las necesidades de OCR en diferentes escenarios.