TF-ID: ferramenta de reconhecimento de imagem/formulário de trabalho acadêmico

Recursos mais recentes de IAPublicado há 1 ano Círculo de compartilhamento de IA

11.6K 00

Introdução geral

O TF-ID (Table/Figure IDentifier) é uma família de modelos de detecção de objetos dedicada à extração de tabelas e imagens de artigos acadêmicos. O projeto foi criado por Yifei Hu e tem código aberto no GitHub. Os modelos TF-ID são ajustados para reconhecer e extrair tabelas e imagens de artigos acadêmicos, suportando a extração com ou sem texto de legenda. O projeto fornece código de treinamento completo, pesos do modelo e conjuntos de dados rotulados manualmente, todos de código aberto sob a licença MIT.

Lista de funções

Extraia tabelas e imagens de artigos acadêmicos
Suporta extração com ou sem texto de cabeçalho
Fornecer o código de treinamento completo e os pesos do modelo
Suporte à extração de tabelas e imagens de arquivos PDF
Várias versões de modelos disponíveis para atender a diferentes necessidades

Usando a Ajuda

Processo de instalação

Armazém de Clonagem:

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

Baixe o conjunto de dados: baixe o conjunto de dados do Hugging Face e extraia-o para o diretório apropriado.

wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images

Converta o formato do conjunto de dados:
```
python coco_to_florence.py
```
Modelos de treinamento:
```
accelerate launch train.py
```

Processo de uso

Extrai tabelas e imagens de uma única imagem:

python inference.py --image_path path/to/image.png

Extraia todas as tabelas e imagens de arquivos PDF:

python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output

Procedimento de operação detalhado

Extrair tabelas e imagens de uma única imagem::
- Passa o caminho da imagem para oinference.pyque usará o modelo padrão TF-ID-large para extrair as tabelas e imagens na imagem.
- Os resultados da extração serão retornados na forma de uma caixa delimitadora que identifica a posição da tabela e da imagem na imagem.
Extraia todas as tabelas e imagens de arquivos PDF::
- Passe o caminho do arquivo PDF para opdf_to_table_figures.pyque extrairá todas as tabelas e imagens do arquivo PDF e salvará as imagens cortadas no diretório de saída especificado.
- Por padrão, o modelo TF-ID-large é usado para extração, o que pode ser alterado modificando o parâmetromodel_idpara mudar para outra versão do modelo.
Modelos de treinamento::
- Após clonar o repositório e fazer o download do conjunto de dados, use o comandococo_to_florence.pyO script converte o conjunto de dados para o formato Florence 2.
- fazer uso deaccelerate launch train.pyinicia o treinamento do modelo, e o arquivo de ponto de verificação é salvo durante o treinamento.