No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LLM)应用提供支持。Unstructured-IO 的模块化功能和连接器形成了一个统一的系统,使数据的摄取和预处理变得高效且适应不同平台。

Lista de funciones
- 数据摄取和预处理
- 支持多种文档类型(PDF、HTML、Word 等)
- 模块化功能和连接器
- 提供开源 API 和客户端库
- 支持 Docker 容器化部署
- 提供无服务器 API 以提高性能
Utilizar la ayuda
Proceso de instalación
- 使用 Docker 容器运行库
- Asegúrese de que Docker está instalado.
- 运行以下命令以下载并运行相应的 Docker 镜像:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- 从 PyPI 安装库
- Utilice pip para instalar:
pip install unstructured
- Utilice pip para instalar:
- 本地开发安装
- Clonar un repositorio GitHub:
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- Clonar un repositorio GitHub:
Normas de uso
- 数据摄取
- utilizar
unstructured
库摄取文档:from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- utilizar
- Preprocesamiento de datos
- 清理和分块文档:
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- 清理和分块文档:
- 连接到数据源和目标
- 使用连接器将数据传输到目标位置:
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- 使用连接器将数据传输到目标位置:
- 无服务器 API
- 注册并获取 API 密钥:
- entrevistas Unstructured API 注册页面.
- 获取 API 密钥并开始使用:
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- 注册并获取 API 密钥:
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...