GOT-OCR2.0: basado en el modelo OCR multimodal de extremo a extremo QWen2 0.5B
Últimos recursos sobre IAActualizado hace 12 meses Círculo de intercambio de inteligencia artificial 12.9K 00
Introducción general
GOT-OCR2.0 es un modelo de reconocimiento óptico de caracteres (OCR) de código abierto co-propuesto por StepStar, cuyo objetivo es impulsar la tecnología OCR hacia OCR-2.0 a través de un modelo unificado de extremo a extremo. El modelo soporta una amplia gama de tareas de OCR, incluyendo el reconocimiento de texto plano, reconocimiento de texto formateado, OCR de grano fino, OCR multi-recorte, y OCR multi-página.GOT-OCR2.0 está diseñado con el objetivo de proporcionar una solución versátil y eficiente para una amplia gama de escenarios complejos de aplicación de OCR.
Basado en el modelo QWen2 0,5 B. Denominado OCR 2.0, el modelo OCR de extremo a extremo con 580M parámetros obtuvo una puntuación BLEU de 0,972. Dirección de la experiencia en línea: https://huggingface.co/spaces/ucaslcl/GOT_online


Lista de funciones
- Reconocimiento de texto sin formato: Reconoce el contenido de texto sin formato en imágenes.
- Reconocimiento de texto con formato: reconoce y conserva la información de formato del texto, como tablas, párrafos, etc.
- OCR fino: Reconozca texto fino en imágenes y texto sobre fondos complejos.
- OCR de recorte múltiple: admite el recorte múltiple de una imagen y reconoce el texto en cada área recortada.
- OCR multipágina: admite el OCR de documentos multipágina.
Utilizar la ayuda
Proceso de instalación
- Clona el código del proyecto:
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- Crear y activar un entorno virtual:
conda create -n got python=3.10 -y conda activate got
- Instale las dependencias del proyecto:
pip install -e .
- Instalar Flash-Atención:
pip install ninja pip install flash-attn --no-build-isolation
Obtención de las ponderaciones del modelo GOT
- Cara abrazada
- Google Drive
- Nube Baidu(Código de extracción: OCR2)
Proceso de utilización
- Preparar los datos de entrada: Coloque la imagen o el documento que va a ser objeto de OCR en el directorio de entrada especificado.
- Ejecute el modelo OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
- Ver salida: El texto procesado por OCR se guardará en el directorio de salida especificado, y los usuarios podrán seguir procesándolo según sea necesario.
Funciones
- Reconocimiento de texto sin formatoReconoce y genera contenido de texto ordinario en imágenes como archivos de texto sin formato, adecuados para tareas sencillas de extracción de texto.
- Reconocimiento de texto con formatoConservar la información de formato, como tablas, párrafos, etc., mientras se reconoce el texto, para situaciones en las que es necesario conservar el formato original del documento.
- OCR detallado: Reconocimiento de texto fino en fondos complejos, adecuado para escenas que requieren una extracción de texto de alta precisión.
- OCR multicultivoRecorta la imagen varias veces y reconoce el texto en cada región recortada, lo que resulta adecuado para situaciones que requieren el reconocimiento multirregión de imágenes.
- OCR multipágina: Admite OCR de documentos multipágina, adecuado para escenarios en los que se procesan documentos largos o archivos PDF multipágina.
Con los pasos anteriores, los usuarios pueden instalar y utilizar fácilmente el modelo GOT-OCR2.0 para diversas tareas de OCR. El modelo proporciona un rico conjunto de módulos funcionales que pueden satisfacer las necesidades de OCR en diferentes escenarios.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...