Aprendizagem pessoal com IA
e orientação prática

Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento

Introdução geral

Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é particularmente adequada para serviços RAG (Retrieval-Augmented Generation) que exigem extração de texto. A Kreuzberg oferece suporte à operação local, é fácil de controlar e econômica. Ele combina uma variedade de opções comerciais e de código aberto para fornecer recursos flexíveis de extração de texto.

Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento-1


 

Lista de funções

  • Extração de texto em PDFExtraia o conteúdo de texto de arquivos PDF.
  • OCR de imagem/PDFOptical character recognition of images and PDFs using Tesseract-OCR (Reconhecimento óptico de caracteres de imagens e PDFs usando Tesseract-OCR).
  • Extração de texto não-PDFExtração de texto em outros formatos via Pandoc.
  • operação localSuporte para instalação e operação local, fácil de controlar e gerenciar.
  • Código aberto e gratuitoBaseado na licença MIT de código aberto, gratuito.

 

Usando a Ajuda

Processo de instalação

  1. Instalação de pacotes Python::
   pip install kreuzberg
  1. Instalação de dependências do sistema::
    • PandocExtração de texto não PDF: para extração de texto não PDF (licença GPL v2.0, usada somente como CLI).
    • Tesseract-OCROCR para imagens e PDFs (licença Apache).

Diretrizes para uso

  1. Uso básico::
    • Importe a biblioteca e inicialize-a: python
      de kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • Extrair texto do PDF: python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. Função OCR::
    • OCR de uma imagem ou PDF: python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Extração de texto não-PDF::
    • Use o Pandoc para extrair texto em outros formatos: python
      other_text = extractor.extract_text('path/to/other/file')
      print(outro_texto)

Fluxo de operação detalhado da função

  1. Extração de texto em PDF::
    • Verifique se o caminho do arquivo PDF está correto.
    • fazer uso deextract_textpara extrair o texto.
    • Processar os dados de texto extraídos para operações subsequentes.
  2. Função OCR::
    • Instale e configure o Tesseract-OCR.
    • fazer uso deocrmétodo para processamento de OCR de imagens ou PDFs.
    • Obter e processar resultados de OCR.
  3. Extração de texto não-PDF::
    • Instalar e configurar o Pandoc.
    • fazer uso deextract_textpara extrair texto em outros formatos.
    • Processar os dados de texto extraídos para operações subsequentes.

Com as etapas acima, os usuários podem começar a usar facilmente as operações de extração de texto da Kreuzberg para atender a uma variedade de necessidades de processamento de texto.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil