Kreuzberg: herramienta de código abierto para extraer texto de cualquier documento

Introducción general

Kreuzberg es una librería para simplificar la extracción de texto de archivos PDF , diseñada para proporcionar una solución de extracción de texto sencilla y sin complicaciones . La librería es particularmente adecuada para servicios RAG (Retrieval-Augmented Generation) que requieren extracción de texto.Kreuzberg soporta operación local, es fácil de controlar y económica. Combina una variedad de opciones de código abierto y comerciales para proporcionar capacidades flexibles de extracción de texto.

Kreuzberg:从任何文档中提取文本的开源工具

 

Lista de funciones

  • Extracción de texto PDF: Extrae contenido de texto de archivos PDF.
  • OCR de imágenes/PDFReconocimiento óptico de caracteres de imágenes y PDF mediante Tesseract-OCR.
  • Extracción de texto no PDF: Extracción de texto en otros formatos a través de Pandoc.
  • funcionamiento localSoporte de instalación y funcionamiento local, fácil de controlar y gestionar.
  • Código abierto y gratuito: Basado en la licencia MIT de código abierto, gratuito.

 

Utilizar la ayuda

Proceso de instalación

  1. Instalación de paquetes Python::
   pip install kreuzberg
  1. Instalación de las dependencias del sistema::
    • Pandocpara la extracción de texto no PDF (licencia GPL v2.0, sólo se utiliza como CLI).
    • Tesseract-OCROCR para imágenes y PDF (licencia Apache).

Normas de uso

  1. Uso básico::
    • Importa la biblioteca e inicialízala: python
      from kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • Extraer texto PDF: python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. Función OCR::
    • OCR de una imagen o PDF: python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Extracción de texto no PDF::
    • Utilice Pandoc para extraer texto en otros formatos: python
      other_text = extractor.extract_text('path/to/other/file')
      print(other_text)

Flujo detallado de funcionamiento de las funciones

  1. Extracción de texto PDF::
    • Asegúrese de que la ruta del archivo PDF es correcta.
    • utilizarextract_textpara extraer el texto.
    • Procesar los datos de texto extraídos para operaciones posteriores.
  2. Función OCR::
    • Instale y configure Tesseract-OCR.
    • utilizarocrmétodo para el tratamiento OCR de imágenes o PDF.
    • Obtener y procesar resultados de OCR.
  3. Extracción de texto no PDF::
    • Instale y configure Pandoc.
    • utilizarextract_textpara extraer texto en otros formatos.
    • Procesar los datos de texto extraídos para operaciones posteriores.

Mediante los pasos anteriores, los usuarios pueden empezar a utilizar fácilmente las operaciones de extracción de texto de Kreuzberg para satisfacer diversas necesidades de procesamiento de texto.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...