Introdução geral
O GOT-OCR2.0 é um modelo de reconhecimento óptico de caracteres (OCR) de código aberto co-proposto pela StepStar, cujo objetivo é impulsionar a tecnologia de OCR em direção ao OCR-2.0 por meio de um modelo unificado de ponta a ponta. O modelo oferece suporte a uma ampla variedade de tarefas de OCR, incluindo reconhecimento de texto simples, reconhecimento de texto formatado, OCR de granulação fina, OCR de várias culturas e OCR de várias páginas. O GOT-OCR2.0 foi projetado com o objetivo de fornecer uma solução versátil e eficiente para uma ampla variedade de cenários complexos de aplicativos de OCR.
Baseado no modelo QWen2 0.5 B. Chamado de OCR 2.0, o modelo de OCR de ponta a ponta com 580 milhões de parâmetros obteve uma pontuação BLEU de 0,972. Endereço de experiência on-line: https://huggingface.co/spaces/ucaslcl/GOT_online
Lista de funções
- Reconhecimento de texto simples: reconhece o conteúdo de texto simples em imagens.
- Reconhecimento de texto formatado: reconhece e retém informações de formatação de texto, como tabelas, parágrafos, etc.
- OCR de granulação fina: Reconheça textos finos em imagens e textos em fundos complexos.
- OCR com vários cortes: suporta vários cortes de uma imagem e reconhece o texto em cada área cortada.
- OCR de várias páginas: oferece suporte a OCR de documentos com várias páginas.
Usando a Ajuda
Processo de instalação
- Clone o código do projeto:
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- Criar e ativar um ambiente virtual:
conda create -n got python=3.10 -y conda activate got
- Instale as dependências do projeto:
pip install -e .
- Instalar o Flash-Attention:
pip install ninja pip install flash-attn --no-build-isolation
Obtenção de pesos do modelo GOT
- Cara de abraço
- Google Drive
- Nuvem Baidu(Código de extração: OCR2)
Processo de uso
- Prepare input data (Preparar dados de entrada): coloque a imagem ou o documento a ser processado por OCR no diretório de entrada especificado.
- Execute o modelo de OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --tipo ocr
- View Output (Exibir saída): o texto processado por OCR será salvo no diretório de saída especificado, e os usuários poderão processá-lo posteriormente, conforme necessário.
Funções
- Reconhecimento de texto simplesReconhece e gera conteúdo de texto comum em imagens como arquivos de texto simples, adequados para tarefas simples de extração de texto.
- Reconhecimento de texto formatadoPreservação de informações de formatação, como tabelas, parágrafos etc., durante o reconhecimento de texto, para cenários em que a formatação original do documento precisa ser preservada.
- OCR de granulação finaReconhecimento de texto fino em fundos complexos, adequado para cenas que exigem extração de texto de alta precisão.
- OCR de várias culturasRecorta a imagem várias vezes e reconhece o texto em cada região recortada, o que é adequado para cenários que exigem o reconhecimento de imagens em várias regiões.
- OCR de várias páginasSuporte a OCR de documentos de várias páginas, adequado para cenários em que documentos longos ou arquivos PDF de várias páginas são processados.
Com as etapas acima, os usuários podem instalar e usar facilmente o modelo GOT-OCR2.0 para várias tarefas de OCR. O modelo oferece um rico conjunto de módulos funcionais que podem atender às necessidades de OCR em diferentes cenários.