No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción general

Unstructured-IO ofrece una gama de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, Word, etc. El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para aplicaciones de modelos lingüísticos de gran tamaño (LLM). El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para las aplicaciones de Large Language Model (LLM).La funcionalidad modular y los conectores de Unstructured-IO forman un sistema unificado que hace que la ingestión y el preprocesamiento de datos sean eficientes y adaptables a diferentes plataformas.

Unstructured:开源预处理非结构化文档,无结构数据处理的利器

 

 

Lista de funciones

  • Ingesta y preprocesamiento de datos
  • Compatibilidad con varios tipos de documentos (PDF, HTML, Word, etc.)
  • Funciones modulares y conectores
  • Proporciona API de código abierto y bibliotecas de clientes
  • Admite la implantación en contenedores Docker
  • Proporcionar API sin servidor para mejorar el rendimiento

 

 

Utilizar la ayuda

Proceso de instalación

  1. Uso de la biblioteca de tiempo de ejecución de contenedores Docker
    • Asegúrese de que Docker está instalado.
    • Ejecute el siguiente comando para descargar y ejecutar la imagen Docker adecuada:
      docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
      docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
      
  2. Instalación de bibliotecas desde PyPI
    • Utilice pip para instalar:
      pip install unstructured
      
  3. Instalación de desarrollo local
    • Clonar un repositorio GitHub:
      git clone https://github.com/Unstructured-IO/unstructured.git
      cd unstructured
      pip install -e .
      

 

Normas de uso

  1. Ingesta de datos
    • utilizar unstructured La biblioteca ingiere documentos:
      from unstructured.partition.pdf import partition_pdf
      document = partition_pdf("example.pdf")
      
  2. Preprocesamiento de datos
    • Limpiar y trocear documentos:
      from unstructured.cleaners.core import clean
      cleaned_document = clean(document)
      
  3. Conexión a fuentes de datos y objetivos
    • Utiliza el conector para transferir datos a la ubicación de destino:
      from unstructured.connectors import send_to_destination
      send_to_destination(cleaned_document, destination="s3://bucket-name")
      
  4. API sin servidor
    • Regístrese y obtenga la clave API:
      • entrevistas Página de registro de API no estructurada.
      • Obtenga la clave API y empiece a utilizarla:
        import requests
        headers = {"Authorization": "Bearer YOUR_API_KEY"}
        response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
        
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...