GOT-OCR2.0: baseado no modelo de OCR multimodal de ponta a ponta QWen2 0.5B

Introdução geral

O GOT-OCR2.0 é um modelo de reconhecimento óptico de caracteres (OCR) de código aberto co-proposto pela StepStar, cujo objetivo é impulsionar a tecnologia de OCR em direção ao OCR-2.0 por meio de um modelo unificado de ponta a ponta. O modelo oferece suporte a uma ampla variedade de tarefas de OCR, incluindo reconhecimento de texto simples, reconhecimento de texto formatado, OCR de granulação fina, OCR de várias culturas e OCR de várias páginas. O GOT-OCR2.0 foi projetado com o objetivo de fornecer uma solução versátil e eficiente para uma ampla variedade de cenários complexos de aplicativos de OCR.

Baseado no modelo QWen2 0.5 B. Chamado de OCR 2.0, o modelo de OCR de ponta a ponta com 580 milhões de parâmetros obteve uma pontuação BLEU de 0,972. Endereço de experiência on-line: https://huggingface.co/spaces/ucaslcl/GOT_online

GOT-OCR2.0: baseado no modelo-1 de OCR multimodal de ponta a ponta QWen2 0.5B

Lista de funções

Reconhecimento de texto simples: reconhece o conteúdo de texto simples em imagens.
Reconhecimento de texto formatado: reconhece e retém informações de formatação de texto, como tabelas, parágrafos, etc.
OCR de granulação fina: Reconheça textos finos em imagens e textos em fundos complexos.
OCR com vários cortes: suporta vários cortes de uma imagem e reconhece o texto em cada área cortada.
OCR de várias páginas: oferece suporte a OCR de documentos com várias páginas.

Usando a Ajuda

Processo de instalação

Clone o código do projeto:

git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

Criar e ativar um ambiente virtual:

conda create -n got python=3.10 -y
conda activate got

Instale as dependências do projeto:
```
pip install -e .
```

Instalar o Flash-Attention:

pip install ninja
pip install flash-attn --no-build-isolation

Obtenção de pesos do modelo GOT

Cara de abraço
Google Drive
Nuvem Baidu(Código de extração: OCR2)

Processo de uso

Prepare input data (Preparar dados de entrada): coloque a imagem ou o documento a ser processado por OCR no diretório de entrada especificado.

Execute o modelo de OCR:

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --tipo ocr

View Output (Exibir saída): o texto processado por OCR será salvo no diretório de saída especificado, e os usuários poderão processá-lo posteriormente, conforme necessário.

Funções

Reconhecimento de texto simplesReconhece e gera conteúdo de texto comum em imagens como arquivos de texto simples, adequados para tarefas simples de extração de texto.
Reconhecimento de texto formatadoPreservação de informações de formatação, como tabelas, parágrafos etc., durante o reconhecimento de texto, para cenários em que a formatação original do documento precisa ser preservada.
OCR de granulação finaReconhecimento de texto fino em fundos complexos, adequado para cenas que exigem extração de texto de alta precisão.
OCR de várias culturasRecorta a imagem várias vezes e reconhece o texto em cada região recortada, o que é adequado para cenários que exigem o reconhecimento de imagens em várias regiões.
OCR de várias páginasSuporte a OCR de documentos de várias páginas, adequado para cenários em que documentos longos ou arquivos PDF de várias páginas são processados.

Com as etapas acima, os usuários podem instalar e usar facilmente o modelo GOT-OCR2.0 para várias tarefas de OCR. O modelo oferece um rico conjunto de módulos funcionais que podem atender às necessidades de OCR em diferentes cenários.

GOT-OCR2.0: baseado no modelo de OCR multimodal de ponta a ponta QWen2 0.5B

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Obtenção de pesos do modelo GOT

Processo de uso

Funções

Artigos relacionados

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

PaddleOCR: uma biblioteca de ferramentas de OCR multilíngue baseada no Flying Paddle, com suporte ao reconhecimento de mais de 80 idiomas

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA