Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

TF-ID: ferramenta de reconhecimento de imagem/formulário de trabalho acadêmico

Introdução geral

O TF-ID (Table/Figure IDentifier) é uma família de modelos de detecção de objetos dedicada à extração de tabelas e imagens de artigos acadêmicos. O projeto foi criado por Yifei Hu e tem código aberto no GitHub. Os modelos TF-ID são ajustados para reconhecer e extrair tabelas e imagens de artigos acadêmicos, suportando a extração com ou sem texto de legenda. O projeto fornece código de treinamento completo, pesos do modelo e conjuntos de dados rotulados manualmente, todos de código aberto sob a licença MIT.

 


TF-ID:学术论文表格/图像识别工具-1

 

 

Lista de funções

  • Extraia tabelas e imagens de artigos acadêmicos
  • Suporta extração com ou sem texto de cabeçalho
  • Fornecer o código de treinamento completo e os pesos do modelo
  • Suporte à extração de tabelas e imagens de arquivos PDF
  • Várias versões de modelos disponíveis para atender a diferentes necessidades

 

 

Usando a Ajuda

Processo de instalação

  1. Armazém de Clonagem:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Baixe o conjunto de dados: baixe o conjunto de dados do Hugging Face e extraia-o para o diretório apropriado.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. Converta o formato do conjunto de dados:
    python coco_to_florence.py
    
  4. Modelos de treinamento:
    accelerate launch train.py
    

Processo de uso

  1. Extrai tabelas e imagens de uma única imagem:
    python inference.py --image_path path/to/image.png
    
  2. Extraia todas as tabelas e imagens de arquivos PDF:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Procedimento de operação detalhado

  1. Extrair tabelas e imagens de uma única imagem::
    • Passa o caminho da imagem para oinference.pyque usará o modelo padrão TF-ID-large para extrair as tabelas e imagens na imagem.
    • Os resultados da extração serão retornados na forma de uma caixa delimitadora que identifica a posição da tabela e da imagem na imagem.
  2. Extraia todas as tabelas e imagens de arquivos PDF::
    • Passe o caminho do arquivo PDF para opdf_to_table_figures.pyque extrairá todas as tabelas e imagens do arquivo PDF e salvará as imagens cortadas no diretório de saída especificado.
    • Por padrão, o modelo TF-ID-large é usado para extração, o que pode ser alterado modificando o parâmetromodel_idpara mudar para outra versão do modelo.
  3. Modelos de treinamento::
    • Após clonar o repositório e fazer o download do conjunto de dados, use o comandococo_to_florence.pyO script converte o conjunto de dados para o formato Florence 2.
    • fazer uso deaccelerate launch train.pyinicia o treinamento do modelo, e o arquivo de ponto de verificação é salvo durante o treinamento.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " TF-ID: ferramenta de reconhecimento de imagem/formulário de trabalho acadêmico
pt_BRPortuguês do Brasil