Introdução geral
O TF-ID (Table/Figure IDentifier) é uma família de modelos de detecção de objetos dedicada à extração de tabelas e imagens de artigos acadêmicos. O projeto foi criado por Yifei Hu e tem código aberto no GitHub. Os modelos TF-ID são ajustados para reconhecer e extrair tabelas e imagens de artigos acadêmicos, suportando a extração com ou sem texto de legenda. O projeto fornece código de treinamento completo, pesos do modelo e conjuntos de dados rotulados manualmente, todos de código aberto sob a licença MIT.
Lista de funções
- Extraia tabelas e imagens de artigos acadêmicos
- Suporta extração com ou sem texto de cabeçalho
- Fornecer o código de treinamento completo e os pesos do modelo
- Suporte à extração de tabelas e imagens de arquivos PDF
- Várias versões de modelos disponíveis para atender a diferentes necessidades
Usando a Ajuda
Processo de instalação
- Armazém de Clonagem:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- Baixe o conjunto de dados: baixe o conjunto de dados do Hugging Face e extraia-o para o diretório apropriado.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip descompactar arxiv_paper_images.zip -d . /images
- Converta o formato do conjunto de dados:
python coco_to_florence.py
- Modelos de treinamento:
acelerar o lançamento do train.py
Processo de uso
- Extrai tabelas e imagens de uma única imagem:
python inference.py --image_path path/to/image.png
- Extraia todas as tabelas e imagens de arquivos PDF:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir . /sample_output
Procedimento de operação detalhado
- Extrair tabelas e imagens de uma única imagem::
- Passa o caminho da imagem para o
inference.py
que usará o modelo padrão TF-ID-large para extrair as tabelas e imagens na imagem. - Os resultados da extração serão retornados na forma de uma caixa delimitadora que identifica a posição da tabela e da imagem na imagem.
- Passa o caminho da imagem para o
- Extraia todas as tabelas e imagens de arquivos PDF::
- Passe o caminho do arquivo PDF para o
pdf_to_table_figures.py
que extrairá todas as tabelas e imagens do arquivo PDF e salvará as imagens cortadas no diretório de saída especificado. - Por padrão, o modelo TF-ID-large é usado para extração, o que pode ser alterado modificando o parâmetro
id_modelo
para mudar para outra versão do modelo.
- Passe o caminho do arquivo PDF para o
- Modelos de treinamento::
- Após clonar o repositório e fazer o download do conjunto de dados, use o comando
coco_to_florence.py
O script converte o conjunto de dados para o formato Florence 2. - fazer uso de
acelerar o lançamento do train.py
inicia o treinamento do modelo, e o arquivo de ponto de verificação é salvo durante o treinamento.
- Após clonar o repositório e fazer o download do conjunto de dados, use o comando