Introdução geral
O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o processamento de inteligência de documentos por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente. O projeto foi desenvolvido pela equipe Veason-silverbullet e apresentado na NAACL 2024. O modelo ViTLP, que é capaz de localizar e reconhecer texto OCR, fornece pontos de verificação ViTLP-medium (380M) pré-treinados, que podem ser acessados pelos usuários no Huggingface. O código e os pesos do modelo para o projeto estão disponíveis no GitHub e oferecem suporte ao processamento de OCR de imagens de documentos e geração de layout de texto.
Lista de funções
- Localização e reconhecimento de texto OCRO modelo ViTLP permite a localização e o reconhecimento eficientes de textos OCR.
- Modelo de pré-treinamentoViTLP-medium (380M): são fornecidos pontos de verificação de pré-treinamento do ViTLP-medium (380M), que podem ser usados diretamente ou ajustados pelo usuário.
- Processamento de imagens de documentosSuporte para upload de imagens de documentos e processamento de OCR.
- Modelagem do ajuste finoFornecimento de ferramentas de ajuste fino para apoiar o treinamento subsequente em conjuntos de dados de OCR e VQA.
- Ferramentas de composição de documentosFornece ferramentas de síntese de documentos com metadados de caixa de posicionamento.
Usando a Ajuda
Processo de instalação
- Clonar o código do projeto ViTLP:
git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
- Instale a dependência:
pip install -r requirements.txt
- Faça o download dos pontos de verificação pré-treinamento:
mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium
Processo de uso
- Reconhecimento de texto OCR::
- Execute o script de OCR:
python ocr.py
- Faça o upload de uma imagem de documento e o modelo executará automaticamente o processamento de OCR e emitirá os resultados.
- Modelagem do ajuste fino::
- consulta
. /finetuning
no diretório para treinamento subsequente no conjunto de dados OCR e no conjunto de dados VQA. - Use a ferramenta de síntese de documentos para gerar documentos sintéticos com metadados de caixa de posicionamento para aprimorar o treinamento do modelo.
- consulta
- Decodificação em lote::
- Use scripts de decodificação em lote:
bash
bash decode.sh
- O script processará imagens de documentos em lote e produzirá resultados de OCR.
- Use scripts de decodificação em lote:
Operação detalhada da função
- Localização e reconhecimento de texto OCRApós o upload da imagem do documento, o modelo detectará e reconhecerá automaticamente a área do texto e emitirá o conteúdo do texto e as informações de localização.
- Modelagem do ajuste finoOs usuários podem usar as ferramentas de ajuste fino fornecidas para treinar ainda mais o modelo de acordo com os requisitos do conjunto de dados e melhorar o efeito de reconhecimento em cenários específicos.
- Ferramentas de composição de documentosGeração de documentos com metadados de caixa de posicionamento por meio de uma ferramenta de síntese para ajudar os modelos a entender melhor o layout e a estrutura do texto durante o treinamento.