Introdução geral
O Unstructured-IO oferece uma gama de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de Modelo de Linguagem Grande (LLM). A funcionalidade modular e os conectores do Unstructured-IO formam um sistema unificado que torna a ingestão e o pré-processamento de dados eficientes e adaptáveis a diferentes plataformas.
Lista de funções
- Ingestão e pré-processamento de dados
- Suporte a vários tipos de documentos (PDF, HTML, Word, etc.)
- Funções e conectores modulares
- Fornece APIs de código aberto e bibliotecas de clientes
- Oferece suporte à implementação em contêineres do Docker
- Fornecimento de APIs sem servidor para melhorar o desempenho
Usando a Ajuda
Processo de instalação
- Usando a biblioteca de tempo de execução do contêiner do Docker
- Certifique-se de que o Docker esteja instalado.
- Execute o seguinte comando para baixar e executar a imagem do Docker apropriada:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest execução do docker -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Instalação de bibliotecas do PyPI
- Use o pip para instalar:
pip install unstructured
- Use o pip para instalar:
- Instalação de desenvolvimento local
- Clonar um repositório do GitHub:
git clone https://github.com/Unstructured-IO/unstructured.git cd não estruturado pip install -e .
- Clonar um repositório do GitHub:
Diretrizes para uso
- Ingestão de dados
- fazer uso de
não estruturado
A biblioteca ingere documentos:de unstructured.partition.pdf importação partição_pdf document = partition_pdf("example.pdf")
- fazer uso de
- Pré-processamento de dados
- Limpe e classifique os documentos:
de limpadores não estruturados.core importação limpo cleaned_document = clean(document)
- Limpe e classifique os documentos:
- Conexão com fontes de dados e alvos
- Use o conector para transferir dados para o local de destino:
de não estruturados.conectores importação send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- Use o conector para transferir dados para o local de destino:
- API sem servidor
- Registre-se e obtenha a chave da API:
- entrevistas Página de registro de API não estruturada.
- Obtenha a chave da API e comece a usá-la:
importação solicitações headers = {"Authorization" (Autorização): "Portador YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document" (documento): "example.pdf"})
- Registre-se e obtenha a chave da API: