ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Recursos mais recentes de IAAtualizado há 10 meses Círculo de compartilhamento de IA

18.5K 00

Introdução geral

O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o processamento de inteligência de documentos por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente. O projeto foi desenvolvido pela equipe Veason-silverbullet e apresentado na NAACL 2024. O modelo ViTLP, que é capaz de localizar e reconhecer texto OCR, fornece pontos de verificação ViTLP-medium (380M) pré-treinados, que podem ser acessados pelos usuários no Huggingface. O código e os pesos do modelo para o projeto estão disponíveis no GitHub e oferecem suporte ao processamento de OCR de imagens de documentos e geração de layout de texto.

Lista de funções

Localização e reconhecimento de texto OCRO modelo ViTLP permite a localização e o reconhecimento eficientes de textos OCR.
Modelo de pré-treinamentoViTLP-medium (380M): são fornecidos pontos de verificação de pré-treinamento do ViTLP-medium (380M), que podem ser usados diretamente ou ajustados pelo usuário.
Processamento de imagens de documentosSuporte para upload de imagens de documentos e processamento de OCR.
Modelagem do ajuste finoFornecimento de ferramentas de ajuste fino para apoiar o treinamento subsequente em conjuntos de dados de OCR e VQA.
Ferramentas de composição de documentosFornece ferramentas de síntese de documentos com metadados de caixa de posicionamento.

Usando a Ajuda

Processo de instalação

Clonar o código do projeto ViTLP:

   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP

Instale a dependência:

   pip install -r requirements.txt

Faça o download dos pontos de verificação pré-treinamento:

   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Processo de uso

Reconhecimento de texto OCR::
- Execute o script de OCR:
```
 python ocr.py
```
- Faça o upload de uma imagem de documento e o modelo executará automaticamente o processamento de OCR e emitirá os resultados.
Modelagem do ajuste fino::
- consulta./finetuningno diretório para treinamento subsequente no conjunto de dados OCR e no conjunto de dados VQA.
- Use a ferramenta de síntese de documentos para gerar documentos sintéticos com metadados de caixa de posicionamento para aprimorar o treinamento do modelo.
Decodificação em lote::
- Use scripts de decodificação em lote: bash bash decode.sh
- O script processará imagens de documentos em lote e produzirá resultados de OCR.

Operação detalhada da função

Localização e reconhecimento de texto OCRApós o upload da imagem do documento, o modelo detectará e reconhecerá automaticamente a área do texto e emitirá o conteúdo do texto e as informações de localização.
Modelagem do ajuste finoOs usuários podem usar as ferramentas de ajuste fino fornecidas para treinar ainda mais o modelo de acordo com os requisitos do conjunto de dados e melhorar o efeito de reconhecimento em cenários específicos.
Ferramentas de composição de documentosGeração de documentos com metadados de caixa de posicionamento por meio de uma ferramenta de síntese para ajudar os modelos a entender melhor o layout e a estrutura do texto durante o treinamento.

Recursos mais recentes de IA # OCR # Extração e limpeza de documentos

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Whisk: carregue várias imagens e misture temas, cenas e estilos para criar obras de arte exclusivas!

Recursos mais recentes de IA # Controle de estilo de imagem AI

3 meses atrás

020.2K

Cicada Mirror: plataforma de criação de vídeo humano digital com centenas de modelos humanos digitais e clonagem de imagens humanas digitais exclusivas (pago)

Recursos mais recentes de IA # AI Digital Man

10 meses atrás

019.6K

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Recursos mais recentes de IA

7 meses atrás

017.5K

Chatbox: assistente de desktop com IA para clientes multiplataforma

Recursos mais recentes de IA # Aplicativo de bate-papo localizado com IA

7 meses atrás

024K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

Operação detalhada da função

World Labs: Crie um modelo 3D do mundo a partir de uma única imagem, inscreva-se no teste beta do modelo de Inteligência Espacial!

Fitten Code: um assistente de IA integrado ao VS Code para melhorar a eficiência da programação, suporte a modelos não top 10

Artigos relacionados

Whisk: carregue várias imagens e misture temas, cenas e estilos para criar obras de arte exclusivas!

Cicada Mirror: plataforma de criação de vídeo humano digital com centenas de modelos humanos digitais e clonagem de imagens humanas digitais exclusivas (pago)

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Chatbox: assistente de desktop com IA para clientes multiplataforma

Sem comentários

Últimas coleções

Artigos mais recentes

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

Operação detalhada da função

World Labs: Crie um modelo 3D do mundo a partir de uma única imagem, inscreva-se no teste beta do modelo de Inteligência Espacial!

Fitten Code: um assistente de IA integrado ao VS Code para melhorar a eficiência da programação, suporte a modelos não top 10

Artigos relacionados

Whisk: carregue várias imagens e misture temas, cenas e estilos para criar obras de arte exclusivas!

Cicada Mirror: plataforma de criação de vídeo humano digital com centenas de modelos humanos digitais e clonagem de imagens humanas digitais exclusivas (pago)

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Chatbox: assistente de desktop com IA para clientes multiplataforma

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes