Introdução geral
Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é particularmente adequada para serviços RAG (Retrieval-Augmented Generation) que exigem extração de texto. A Kreuzberg oferece suporte à operação local, é fácil de controlar e econômica. Ele combina uma variedade de opções comerciais e de código aberto para fornecer recursos flexíveis de extração de texto.
Lista de funções
- Extração de texto em PDFExtraia o conteúdo de texto de arquivos PDF.
- OCR de imagem/PDFOptical character recognition of images and PDFs using Tesseract-OCR (Reconhecimento óptico de caracteres de imagens e PDFs usando Tesseract-OCR).
- Extração de texto não-PDFExtração de texto em outros formatos via Pandoc.
- operação localSuporte para instalação e operação local, fácil de controlar e gerenciar.
- Código aberto e gratuitoBaseado na licença MIT de código aberto, gratuito.
Usando a Ajuda
Processo de instalação
- Instalação de pacotes Python::
pip install kreuzberg
- Instalação de dependências do sistema::
- PandocExtração de texto não PDF: para extração de texto não PDF (licença GPL v2.0, usada somente como CLI).
- Tesseract-OCROCR para imagens e PDFs (licença Apache).
Diretrizes para uso
- Uso básico::
- Importe a biblioteca e inicialize-a:
python
de kreuzberg import Kreuzberg
extractor = Kreuzberg()
- Extrair texto do PDF:
python
text = extractor.extract_text('path/to/pdf/file.pdf')
print(text)
- Importe a biblioteca e inicialize-a:
- Função OCR::
- OCR de uma imagem ou PDF:
python
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- OCR de uma imagem ou PDF:
- Extração de texto não-PDF::
- Use o Pandoc para extrair texto em outros formatos:
python
other_text = extractor.extract_text('path/to/other/file')
print(outro_texto)
- Use o Pandoc para extrair texto em outros formatos:
Fluxo de operação detalhado da função
- Extração de texto em PDF::
- Verifique se o caminho do arquivo PDF está correto.
- fazer uso de
extract_text
para extrair o texto. - Processar os dados de texto extraídos para operações subsequentes.
- Função OCR::
- Instale e configure o Tesseract-OCR.
- fazer uso de
ocr
método para processamento de OCR de imagens ou PDFs. - Obter e processar resultados de OCR.
- Extração de texto não-PDF::
- Instalar e configurar o Pandoc.
- fazer uso de
extract_text
para extrair texto em outros formatos. - Processar os dados de texto extraídos para operações subsequentes.
Com as etapas acima, os usuários podem começar a usar facilmente as operações de extração de texto da Kreuzberg para atender a uma variedade de necessidades de processamento de texto.