No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

Introducción general

Unstructured-IO ofrece una gama de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, Word, etc. El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para aplicaciones de modelos lingüísticos de gran tamaño (LLM). El objetivo principal es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para las aplicaciones de Large Language Model (LLM).La funcionalidad modular y los conectores de Unstructured-IO forman un sistema unificado que hace que la ingestión y el preprocesamiento de datos sean eficientes y adaptables a diferentes plataformas.

Lista de funciones

Ingesta y preprocesamiento de datos
Compatibilidad con varios tipos de documentos (PDF, HTML, Word, etc.)
Funciones modulares y conectores
Proporciona API de código abierto y bibliotecas de clientes
Admite la implantación en contenedores Docker
Proporcionar API sin servidor para mejorar el rendimiento

Utilizar la ayuda

Proceso de instalación

Uso de la biblioteca de tiempo de ejecución de contenedores Docker
- Asegúrese de que Docker está instalado.
- Ejecute el siguiente comando para descargar y ejecutar la imagen Docker adecuada:
```
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
```
Instalación de bibliotecas desde PyPI
- Utilice pip para instalar:
```
pip install unstructured
```

Instalación de desarrollo local

Clonar un repositorio GitHub:

git clone https://github.com/Unstructured-IO/unstructured.git
cd unstructured
pip install -e .

Normas de uso

Ingesta de datos

utilizar unstructured La biblioteca ingiere documentos:

from unstructured.partition.pdf import partition_pdf
document = partition_pdf("example.pdf")

Preprocesamiento de datos

Limpiar y trocear documentos:

from unstructured.cleaners.core import clean
cleaned_document = clean(document)

Conexión a fuentes de datos y objetivos

Utiliza el conector para transferir datos a la ubicación de destino:

from unstructured.connectors import send_to_destination
send_to_destination(cleaned_document, destination="s3://bucket-name")

API sin servidor

Regístrese y obtenga la clave API:

entrevistas Página de registro de API no estructurada.

Obtenga la clave API y empiece a utilizarla:

import requests
headers = {"Authorization": "Bearer YOUR_API_KEY"}
response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Tongyi Listening and Understanding: Ali Tongyi Asistente de Inteligencia Artificial para la transcripción de contenidos de audio y vídeo

Últimos recursos sobre IA # Herramienta AI de resumen de texto y audio/vídeo # AI Voz a texto

hace 2 años

066.5K

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

Últimos recursos sobre IA

hace 3 meses

023.7K

AI Toolkit by Ostris：Stable Diffusion与FLUX.1模型训练工具包

AI Toolkit de Ostris: Difusión estable con FLUX.1 Kit de herramientas de formación de modelos

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes # AI Java Proyecto de código abierto # Ajuste del modelo grande

hace 1 año

0149.2K

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

Últimos recursos sobre IA

hace 7 meses

046.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Umi-OCR: software OCR offline de código abierto, reconocimiento de imágenes por lotes y reconocimiento de PDF

Pix2Text: herramienta gratuita de código abierto para el reconocimiento de texto en imágenes

Artículos relacionados

Tongyi Listening and Understanding: Ali Tongyi Asistente de Inteligencia Artificial para la transcripción de contenidos de audio y vídeo

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

AI Toolkit de Ostris: Difusión estable con FLUX.1 Kit de herramientas de formación de modelos

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

Sin comentarios

Últimas colecciones

Últimos artículos

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Umi-OCR: software OCR offline de código abierto, reconocimiento de imágenes por lotes y reconocimiento de PDF

Pix2Text: herramienta gratuita de código abierto para el reconocimiento de texto en imágenes

Artículos relacionados

Tongyi Listening and Understanding: Ali Tongyi Asistente de Inteligencia Artificial para la transcripción de contenidos de audio y vídeo

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

AI Toolkit de Ostris: Difusión estable con FLUX.1 Kit de herramientas de formación de modelos

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos