No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados
Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial 12.6K 00
Introducción general
Unstructured-IO ofrece una gama de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, Word, etc. El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para aplicaciones de modelos lingüísticos de gran tamaño (LLM). El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para las aplicaciones de Large Language Model (LLM).La funcionalidad modular y los conectores de Unstructured-IO forman un sistema unificado que hace que la ingestión y el preprocesamiento de datos sean eficientes y adaptables a diferentes plataformas.

Lista de funciones
- Ingesta y preprocesamiento de datos
- Compatibilidad con varios tipos de documentos (PDF, HTML, Word, etc.)
- Funciones modulares y conectores
- Proporciona API de código abierto y bibliotecas de clientes
- Admite la implantación en contenedores Docker
- Proporcionar API sin servidor para mejorar el rendimiento
Utilizar la ayuda
Proceso de instalación
- Uso de la biblioteca de tiempo de ejecución de contenedores Docker
- Asegúrese de que Docker está instalado.
- Ejecute el siguiente comando para descargar y ejecutar la imagen Docker adecuada:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Instalación de bibliotecas desde PyPI
- Utilice pip para instalar:
pip install unstructured
- Utilice pip para instalar:
- Instalación de desarrollo local
- Clonar un repositorio GitHub:
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- Clonar un repositorio GitHub:
Normas de uso
- Ingesta de datos
- utilizar
unstructured
La biblioteca ingiere documentos:from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- utilizar
- Preprocesamiento de datos
- Limpiar y trocear documentos:
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- Limpiar y trocear documentos:
- Conexión a fuentes de datos y objetivos
- Utiliza el conector para transferir datos a la ubicación de destino:
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- Utiliza el conector para transferir datos a la ubicación de destino:
- API sin servidor
- Regístrese y obtenga la clave API:
- entrevistas Página de registro de API no estructurada.
- Obtenga la clave API y empiece a utilizarla:
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- Regístrese y obtenga la clave API:
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...