Kreuzberg: herramienta de código abierto para extraer texto de cualquier documento
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 12.1K 00
Introducción general
Kreuzberg es una librería para simplificar la extracción de texto de archivos PDF , diseñada para proporcionar una solución de extracción de texto sencilla y sin complicaciones . La librería es particularmente adecuada para servicios RAG (Retrieval-Augmented Generation) que requieren extracción de texto.Kreuzberg soporta operación local, es fácil de controlar y económica. Combina una variedad de opciones de código abierto y comerciales para proporcionar capacidades flexibles de extracción de texto.

Lista de funciones
- Extracción de texto PDF: Extrae contenido de texto de archivos PDF.
- OCR de imágenes/PDFReconocimiento óptico de caracteres de imágenes y PDF mediante Tesseract-OCR.
- Extracción de texto no PDF: Extracción de texto en otros formatos a través de Pandoc.
- funcionamiento localSoporte de instalación y funcionamiento local, fácil de controlar y gestionar.
- Código abierto y gratuito: Basado en la licencia MIT de código abierto, gratuito.
Utilizar la ayuda
Proceso de instalación
- Instalación de paquetes Python::
pip install kreuzberg
- Instalación de las dependencias del sistema::
- Pandocpara la extracción de texto no PDF (licencia GPL v2.0, sólo se utiliza como CLI).
- Tesseract-OCROCR para imágenes y PDF (licencia Apache).
Normas de uso
- Uso básico::
- Importa la biblioteca e inicialízala:
python
from kreuzberg import Kreuzberg
extractor = Kreuzberg() - Extraer texto PDF:
python
text = extractor.extract_text('path/to/pdf/file.pdf')
print(text)
- Importa la biblioteca e inicialízala:
- Función OCR::
- OCR de una imagen o PDF:
python
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- OCR de una imagen o PDF:
- Extracción de texto no PDF::
- Utilice Pandoc para extraer texto en otros formatos:
python
other_text = extractor.extract_text('path/to/other/file')
print(other_text)
- Utilice Pandoc para extraer texto en otros formatos:
Flujo detallado de funcionamiento de las funciones
- Extracción de texto PDF::
- Asegúrese de que la ruta del archivo PDF es correcta.
- utilizar
extract_text
para extraer el texto. - Procesar los datos de texto extraídos para operaciones posteriores.
- Función OCR::
- Instale y configure Tesseract-OCR.
- utilizar
ocr
método para el tratamiento OCR de imágenes o PDF. - Obtener y procesar resultados de OCR.
- Extracción de texto no PDF::
- Instale y configure Pandoc.
- utilizar
extract_text
para extraer texto en otros formatos. - Procesar los datos de texto extraídos para operaciones posteriores.
Mediante los pasos anteriores, los usuarios pueden empezar a utilizar fácilmente las operaciones de extracción de texto de Kreuzberg para satisfacer diversas necesidades de procesamiento de texto.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...