Aprendizagem pessoal com IA
e orientação prática

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução geral

O Unstructured-IO oferece uma gama de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de Modelo de Linguagem Grande (LLM). A funcionalidade modular e os conectores do Unstructured-IO formam um sistema unificado que torna a ingestão e o pré-processamento de dados eficientes e adaptáveis a diferentes plataformas.

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados-1


 

 

Lista de funções

  • Ingestão e pré-processamento de dados
  • Suporte a vários tipos de documentos (PDF, HTML, Word, etc.)
  • Funções e conectores modulares
  • Fornece APIs de código aberto e bibliotecas de clientes
  • Oferece suporte à implementação em contêineres do Docker
  • Fornecimento de APIs sem servidor para melhorar o desempenho

 

 

Usando a Ajuda

Processo de instalação

  1. Usando a biblioteca de tempo de execução do contêiner do Docker
    • Certifique-se de que o Docker esteja instalado.
    • Execute o seguinte comando para baixar e executar a imagem do Docker apropriada:
      docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
      execução do docker -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
      
  2. Instalação de bibliotecas do PyPI
    • Use o pip para instalar:
      pip install unstructured
      
  3. Instalação de desenvolvimento local
    • Clonar um repositório do GitHub:
      git clone https://github.com/Unstructured-IO/unstructured.git
      cd não estruturado
      pip install -e .
      

 

Diretrizes para uso

  1. Ingestão de dados
    • fazer uso de não estruturado A biblioteca ingere documentos:
      de unstructured.partition.pdf importação partição_pdf
      document = partition_pdf("example.pdf")
      
  2. Pré-processamento de dados
    • Limpe e classifique os documentos:
      de limpadores não estruturados.core importação limpo
      cleaned_document = clean(document)
      
  3. Conexão com fontes de dados e alvos
    • Use o conector para transferir dados para o local de destino:
      de não estruturados.conectores importação send_to_destination
      send_to_destination(cleaned_document, destination="s3://bucket-name")
      
  4. API sem servidor
    • Registre-se e obtenha a chave da API:
      • entrevistas Página de registro de API não estruturada.
      • Obtenha a chave da API e comece a usá-la:
        importação solicitações
        headers = {"Authorization" (Autorização): "Portador YOUR_API_KEY"}
        response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document" (documento): "example.pdf"})
        
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil