Aprendizagem pessoal com IA
e orientação prática

GOT-OCR2.0: baseado no modelo de OCR multimodal de ponta a ponta QWen2 0.5B

Introdução geral

O GOT-OCR2.0 é um modelo de reconhecimento óptico de caracteres (OCR) de código aberto co-proposto pela StepStar, cujo objetivo é impulsionar a tecnologia de OCR em direção ao OCR-2.0 por meio de um modelo unificado de ponta a ponta. O modelo oferece suporte a uma ampla variedade de tarefas de OCR, incluindo reconhecimento de texto simples, reconhecimento de texto formatado, OCR de granulação fina, OCR de várias culturas e OCR de várias páginas. O GOT-OCR2.0 foi projetado com o objetivo de fornecer uma solução versátil e eficiente para uma ampla variedade de cenários complexos de aplicativos de OCR.

Baseado no modelo QWen2 0.5 B. Chamado de OCR 2.0, o modelo de OCR de ponta a ponta com 580 milhões de parâmetros obteve uma pontuação BLEU de 0,972. Endereço de experiência on-line: https://huggingface.co/spaces/ucaslcl/GOT_online


 

GOT-OCR2.0: baseado no modelo-1 de OCR multimodal de ponta a ponta QWen2 0.5B

 

GOT-OCR2.0: baseado no modelo-1 de OCR multimodal de ponta a ponta QWen2 0.5B

 

 

Lista de funções

  • Reconhecimento de texto simples: reconhece o conteúdo de texto simples em imagens.
  • Reconhecimento de texto formatado: reconhece e retém informações de formatação de texto, como tabelas, parágrafos, etc.
  • OCR de granulação fina: Reconheça textos finos em imagens e textos em fundos complexos.
  • OCR com vários cortes: suporta vários cortes de uma imagem e reconhece o texto em cada área cortada.
  • OCR de várias páginas: oferece suporte a OCR de documentos com várias páginas.

 

 

Usando a Ajuda

Processo de instalação

  1. Clone o código do projeto:
    git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. Criar e ativar um ambiente virtual:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. Instale as dependências do projeto:
    pip install -e .
    
  4. Instalar o Flash-Attention:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

Obtenção de pesos do modelo GOT

Processo de uso

  1. Prepare input data (Preparar dados de entrada): coloque a imagem ou o documento a ser processado por OCR no diretório de entrada especificado.
  2. Execute o modelo de OCR:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --tipo ocr
    
  3. View Output (Exibir saída): o texto processado por OCR será salvo no diretório de saída especificado, e os usuários poderão processá-lo posteriormente, conforme necessário.

Funções

  • Reconhecimento de texto simplesReconhece e gera conteúdo de texto comum em imagens como arquivos de texto simples, adequados para tarefas simples de extração de texto.
  • Reconhecimento de texto formatadoPreservação de informações de formatação, como tabelas, parágrafos etc., durante o reconhecimento de texto, para cenários em que a formatação original do documento precisa ser preservada.
  • OCR de granulação finaReconhecimento de texto fino em fundos complexos, adequado para cenas que exigem extração de texto de alta precisão.
  • OCR de várias culturasRecorta a imagem várias vezes e reconhece o texto em cada região recortada, o que é adequado para cenários que exigem o reconhecimento de imagens em várias regiões.
  • OCR de várias páginasSuporte a OCR de documentos de várias páginas, adequado para cenários em que documentos longos ou arquivos PDF de várias páginas são processados.

Com as etapas acima, os usuários podem instalar e usar facilmente o modelo GOT-OCR2.0 para várias tarefas de OCR. O modelo oferece um rico conjunto de módulos funcionais que podem atender às necessidades de OCR em diferentes cenários.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " GOT-OCR2.0: baseado no modelo de OCR multimodal de ponta a ponta QWen2 0.5B

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil