Kreuzberg: herramienta de código abierto para extraer texto de cualquier documento
 Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 28.2K 00
Introducción general
Kreuzberg es una librería para simplificar la extracción de texto de archivos PDF , diseñada para proporcionar una solución de extracción de texto sencilla y sin complicaciones . La librería es particularmente adecuada para servicios RAG (Retrieval-Augmented Generation) que requieren extracción de texto.Kreuzberg soporta operación local, es fácil de controlar y económica. Combina una variedad de opciones de código abierto y comerciales para proporcionar capacidades flexibles de extracción de texto.

Lista de funciones
- Extracción de texto PDF: Extrae contenido de texto de archivos PDF.
- OCR de imágenes/PDFReconocimiento óptico de caracteres de imágenes y PDF mediante Tesseract-OCR.
- Extracción de texto no PDF: Extracción de texto en otros formatos a través de Pandoc.
- funcionamiento localSoporte de instalación y funcionamiento local, fácil de controlar y gestionar.
- Código abierto y gratuito: Basado en la licencia MIT de código abierto, gratuito.
Utilizar la ayuda
Proceso de instalación
- Instalación de paquetes Python::
   pip install kreuzberg
- Instalación de las dependencias del sistema::- Pandocpara la extracción de texto no PDF (licencia GPL v2.0, sólo se utiliza como CLI).
- Tesseract-OCROCR para imágenes y PDF (licencia Apache).
 
Normas de uso
- Uso básico::- Importa la biblioteca e inicialízala: python
 from kreuzberg import Kreuzberg
 extractor = Kreuzberg()
- Extraer texto PDF: python
 text = extractor.extract_text('path/to/pdf/file.pdf')
 print(text)
 
- Importa la biblioteca e inicialízala: 
- Función OCR::- OCR de una imagen o PDF: python
 ocr_text = extractor.ocr('path/to/image_or_pdf')
 print(ocr_text)
 
- OCR de una imagen o PDF: 
- Extracción de texto no PDF::- Utilice Pandoc para extraer texto en otros formatos: python
 other_text = extractor.extract_text('path/to/other/file')
 print(other_text)
 
- Utilice Pandoc para extraer texto en otros formatos: 
Flujo detallado de funcionamiento de las funciones
- Extracción de texto PDF::- Asegúrese de que la ruta del archivo PDF es correcta.
- utilizarextract_textpara extraer el texto.
- Procesar los datos de texto extraídos para operaciones posteriores.
 
- Función OCR::- Instale y configure Tesseract-OCR.
- utilizarocrmétodo para el tratamiento OCR de imágenes o PDF.
- Obtener y procesar resultados de OCR.
 
- Extracción de texto no PDF::- Instale y configure Pandoc.
- utilizarextract_textpara extraer texto en otros formatos.
- Procesar los datos de texto extraídos para operaciones posteriores.
 
Mediante los pasos anteriores, los usuarios pueden empezar a utilizar fácilmente las operaciones de extracción de texto de Kreuzberg para satisfacer diversas necesidades de procesamiento de texto.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial  Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





 Español
Español  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Русский
Русский