TF-ID: herramienta de reconocimiento de formularios/imágenes de documentos académicos

Introducción general

TF-ID (Table/Figure IDentifier) es una familia de modelos de detección de objetos dedicados a la extracción de tablas e imágenes de artículos académicos. El proyecto fue creado por Yifei Hu y está disponible en GitHub. Los modelos TF-ID se han perfeccionado para reconocer y extraer tablas e imágenes de artículos académicos, con o sin texto de pie de foto. El proyecto proporciona el código de entrenamiento completo, los pesos de los modelos y los conjuntos de datos etiquetados manualmente, todo ello bajo la licencia MIT.

 

TF-ID:学术论文表格/图像识别工具

 

 

Lista de funciones

  • Extraer tablas e imágenes de artículos académicos
  • Admite la extracción con o sin texto de cabecera
  • Proporcione el código de entrenamiento completo y las ponderaciones del modelo
  • Permite extraer tablas e imágenes de archivos PDF
  • Múltiples versiones de modelos disponibles para adaptarse a diferentes necesidades

 

 

Utilizar la ayuda

Proceso de instalación

  1. Almacén de clonación:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Descargar el conjunto de datos: Descargue el conjunto de datos de Hugging Face y extráigalo al directorio adecuado.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. Convierte el formato del conjunto de datos:
    python coco_to_florence.py
    
  4. Modelos de formación:
    accelerate launch train.py
    

Proceso de utilización

  1. Extrae tablas e imágenes de una sola imagen:
    python inference.py --image_path path/to/image.png
    
  2. Extrae todas las tablas e imágenes de los archivos PDF:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Procedimiento de funcionamiento detallado

  1. Extraer tablas e imágenes de una sola imagen::
    • Pasa la ruta de la imagen alinference.pyque utilizará el modelo por defecto TF-ID-large para extraer las tablas e imágenes de la imagen.
    • Los resultados de la extracción se devolverán en forma de un cuadro delimitador que identifica la posición de la tabla y la imagen en la imagen.
  2. Extrae todas las tablas e imágenes de los archivos PDF::
    • Pasar la ruta del archivo PDF apdf_to_table_figures.pyque extraerá todas las tablas e imágenes del archivo PDF y guardará las imágenes recortadas en el directorio de salida especificado.
    • Por defecto, para la extracción se utiliza el modelo TF-ID-large, que puede cambiarse modificando el scriptmodel_idpara cambiar a otra versión del modelo.
  3. Modelos de formación::
    • Tras clonar el repositorio y descargar el conjunto de datos, utilice la funcióncoco_to_florence.pyEl script convierte el conjunto de datos al formato Florence 2.
    • utilizaraccelerate launch train.pyinicia el entrenamiento del modelo, y el archivo de puntos de control se guarda durante el entrenamiento.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...