Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа

Общее введение

Kreuzberg - это библиотека для упрощения извлечения текста из PDF-файлов, разработанная для обеспечения простого и удобного решения по извлечению текста. Библиотека особенно хорошо подходит для сервисов RAG (Retrieval-Augmented Generation), требующих извлечения текста. Kreuzberg поддерживает локальную работу, проста в управлении и недорога. Она сочетает в себе различные открытые и коммерческие возможности для обеспечения гибких возможностей извлечения текста.

Kreuzberg:从任何文档中提取文本的开源工具

 

Список функций

  • Извлечение текста из PDF: Извлечение текстового содержимого из файлов PDF.
  • OCR изображений/PDF: Оптическое распознавание символов на изображениях и PDF-файлах с помощью Tesseract-OCR.
  • Извлечение текста не из PDF: Извлечение текста в других форматах с помощью Pandoc.
  • локальная операция: Поддержка локальной установки и эксплуатации, простота контроля и управления.
  • С открытым исходным кодом и бесплатно: Основано на лицензии MIT с открытым исходным кодом, бесплатно.

 

Использование помощи

Процесс установки

  1. Установка пакетов Python::
   pip install kreuzberg
  1. Установка системных зависимостей::
    • Pandoc: для извлечения текста не из PDF (лицензия GPL v2.0, используется только как CLI).
    • Tesseract-OCR: OCR для изображений и PDF-файлов (лицензия Apache).

Руководство по использованию

  1. Основное использование::
    • Импортируйте библиотеку и инициализируйте ее: python
      from kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • Извлечение текста PDF: python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. Функция OCR::
    • OCR изображения или PDF-файла: python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Извлечение текста не из PDF::
    • Используйте Pandoc для извлечения текста в других форматах: python
      other_text = extractor.extract_text('path/to/other/file')
      print(other_text)

Подробный порядок работы функций

  1. Извлечение текста из PDF::
    • Убедитесь, что путь к файлу PDF указан правильно.
    • пользоватьсяextract_textметод для извлечения текста.
    • Обработайте извлеченные текстовые данные для последующих операций.
  2. Функция OCR::
    • Установите и настройте Tesseract-OCR.
    • пользоватьсяocrметод OCR-обработки изображений или PDF-файлов.
    • Получение и обработка результатов OCR.
  3. Извлечение текста не из PDF::
    • Установите и настройте Pandoc.
    • пользоватьсяextract_textметод для извлечения текста в других форматах.
    • Обработайте извлеченные текстовые данные для последующих операций.

Выполнив описанные выше действия, пользователи смогут легко начать работу с операциями по извлечению текста из Kreuzberg для решения различных задач по обработке текста.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...