Aprendizagem pessoal com IA
e orientação prática

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução geral

O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o processamento de inteligência de documentos por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente. O projeto foi desenvolvido pela equipe Veason-silverbullet e apresentado na NAACL 2024. O modelo ViTLP, que é capaz de localizar e reconhecer texto OCR, fornece pontos de verificação ViTLP-medium (380M) pré-treinados, que podem ser acessados pelos usuários no Huggingface. O código e os pesos do modelo para o projeto estão disponíveis no GitHub e oferecem suporte ao processamento de OCR de imagens de documentos e geração de layout de texto.

ViTLP: reconhecimento de OCR de documentos PDF para extrair dados estruturados, o ViTLP é um modelo de pré-treinamento de código aberto guiado visualmente para gerar layouts de texto-1


 

Lista de funções

  • Localização e reconhecimento de texto OCRO modelo ViTLP permite a localização e o reconhecimento eficientes de textos OCR.
  • Modelo de pré-treinamentoViTLP-medium (380M): são fornecidos pontos de verificação de pré-treinamento do ViTLP-medium (380M), que podem ser usados diretamente ou ajustados pelo usuário.
  • Processamento de imagens de documentosSuporte para upload de imagens de documentos e processamento de OCR.
  • Modelagem do ajuste finoFornecimento de ferramentas de ajuste fino para apoiar o treinamento subsequente em conjuntos de dados de OCR e VQA.
  • Ferramentas de composição de documentosFornece ferramentas de síntese de documentos com metadados de caixa de posicionamento.

 

Usando a Ajuda

Processo de instalação

  1. Clonar o código do projeto ViTLP:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. Instale a dependência:
   pip install -r requirements.txt
  1. Faça o download dos pontos de verificação pré-treinamento:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Processo de uso

  1. Reconhecimento de texto OCR::
    • Execute o script de OCR:
     python ocr.py
    
    • Faça o upload de uma imagem de documento e o modelo executará automaticamente o processamento de OCR e emitirá os resultados.
  2. Modelagem do ajuste fino::
    • consulta. /finetuningno diretório para treinamento subsequente no conjunto de dados OCR e no conjunto de dados VQA.
    • Use a ferramenta de síntese de documentos para gerar documentos sintéticos com metadados de caixa de posicionamento para aprimorar o treinamento do modelo.
  3. Decodificação em lote::
    • Use scripts de decodificação em lote: bash
      bash decode.sh
    • O script processará imagens de documentos em lote e produzirá resultados de OCR.

Operação detalhada da função

  • Localização e reconhecimento de texto OCRApós o upload da imagem do documento, o modelo detectará e reconhecerá automaticamente a área do texto e emitirá o conteúdo do texto e as informações de localização.
  • Modelagem do ajuste finoOs usuários podem usar as ferramentas de ajuste fino fornecidas para treinar ainda mais o modelo de acordo com os requisitos do conjunto de dados e melhorar o efeito de reconhecimento em cenários específicos.
  • Ferramentas de composição de documentosGeração de documentos com metadados de caixa de posicionamento por meio de uma ferramenta de síntese para ajudar os modelos a entender melhor o layout e a estrutura do texto durante o treinamento.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil