Kreuzberg: herramienta de código abierto para extraer texto de cualquier documento

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

61.1K 00

Introducción general

Kreuzberg es una librería para simplificar la extracción de texto de archivos PDF , diseñada para proporcionar una solución de extracción de texto sencilla y sin complicaciones . La librería es particularmente adecuada para servicios RAG (Retrieval-Augmented Generation) que requieren extracción de texto.Kreuzberg soporta operación local, es fácil de controlar y económica. Combina una variedad de opciones de código abierto y comerciales para proporcionar capacidades flexibles de extracción de texto.

Lista de funciones

Extracción de texto PDF: Extrae contenido de texto de archivos PDF.
OCR de imágenes/PDFReconocimiento óptico de caracteres de imágenes y PDF mediante Tesseract-OCR.
Extracción de texto no PDF: Extracción de texto en otros formatos a través de Pandoc.
funcionamiento localSoporte de instalación y funcionamiento local, fácil de controlar y gestionar.
Código abierto y gratuito: Basado en la licencia MIT de código abierto, gratuito.

Utilizar la ayuda

Proceso de instalación

Instalación de paquetes Python::

   pip install kreuzberg

Instalación de las dependencias del sistema::
- Pandocpara la extracción de texto no PDF (licencia GPL v2.0, sólo se utiliza como CLI).
- Tesseract-OCROCR para imágenes y PDF (licencia Apache).

Normas de uso

Uso básico::
- Importa la biblioteca e inicialízala: python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- Extraer texto PDF: python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
Función OCR::
- OCR de una imagen o PDF: python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
Extracción de texto no PDF::
- Utilice Pandoc para extraer texto en otros formatos: python other_text = extractor.extract_text('path/to/other/file') print(other_text)

Flujo detallado de funcionamiento de las funciones

Extracción de texto PDF::
- Asegúrese de que la ruta del archivo PDF es correcta.
- utilizarextract_textpara extraer el texto.
- Procesar los datos de texto extraídos para operaciones posteriores.
Función OCR::
- Instale y configure Tesseract-OCR.
- utilizarocrmétodo para el tratamiento OCR de imágenes o PDF.
- Obtener y procesar resultados de OCR.
Extracción de texto no PDF::
- Instale y configure Pandoc.
- utilizarextract_textpara extraer texto en otros formatos.
- Procesar los datos de texto extraídos para operaciones posteriores.

Mediante los pasos anteriores, los usuarios pueden empezar a utilizar fácilmente las operaciones de extracción de texto de Kreuzberg para satisfacer diversas necesidades de procesamiento de texto.