TF-ID: herramienta de reconocimiento de formularios/imágenes de documentos académicos
Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial 2.4K 00
Introducción general
TF-ID (Table/Figure IDentifier) es una familia de modelos de detección de objetos dedicados a la extracción de tablas e imágenes de artículos académicos. El proyecto fue creado por Yifei Hu y está disponible en GitHub. Los modelos TF-ID se han perfeccionado para reconocer y extraer tablas e imágenes de artículos académicos, con o sin texto de pie de foto. El proyecto proporciona el código de entrenamiento completo, los pesos de los modelos y los conjuntos de datos etiquetados manualmente, todo ello bajo la licencia MIT.

Lista de funciones
- Extraer tablas e imágenes de artículos académicos
- Admite la extracción con o sin texto de cabecera
- Proporcione el código de entrenamiento completo y las ponderaciones del modelo
- Permite extraer tablas e imágenes de archivos PDF
- Múltiples versiones de modelos disponibles para adaptarse a diferentes necesidades
Utilizar la ayuda
Proceso de instalación
- Almacén de clonación:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- Descargar el conjunto de datos: Descargue el conjunto de datos de Hugging Face y extráigalo al directorio adecuado.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- Convierte el formato del conjunto de datos:
python coco_to_florence.py
- Modelos de formación:
accelerate launch train.py
Proceso de utilización
- Extrae tablas e imágenes de una sola imagen:
python inference.py --image_path path/to/image.png
- Extrae todas las tablas e imágenes de los archivos PDF:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
Procedimiento de funcionamiento detallado
- Extraer tablas e imágenes de una sola imagen::
- Pasa la ruta de la imagen al
inference.py
que utilizará el modelo por defecto TF-ID-large para extraer las tablas e imágenes de la imagen. - Los resultados de la extracción se devolverán en forma de un cuadro delimitador que identifica la posición de la tabla y la imagen en la imagen.
- Pasa la ruta de la imagen al
- Extrae todas las tablas e imágenes de los archivos PDF::
- Pasar la ruta del archivo PDF a
pdf_to_table_figures.py
que extraerá todas las tablas e imágenes del archivo PDF y guardará las imágenes recortadas en el directorio de salida especificado. - Por defecto, para la extracción se utiliza el modelo TF-ID-large, que puede cambiarse modificando el script
model_id
para cambiar a otra versión del modelo.
- Pasar la ruta del archivo PDF a
- Modelos de formación::
- Tras clonar el repositorio y descargar el conjunto de datos, utilice la función
coco_to_florence.py
El script convierte el conjunto de datos al formato Florence 2. - utilizar
accelerate launch train.py
inicia el entrenamiento del modelo, y el archivo de puntos de control se guarda durante el entrenamiento.
- Tras clonar el repositorio y descargar el conjunto de datos, utilice la función
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...