Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа
Общее введение
Kreuzberg - это библиотека для упрощения извлечения текста из PDF-файлов, разработанная для обеспечения простого и удобного решения по извлечению текста. Библиотека особенно хорошо подходит для сервисов RAG (Retrieval-Augmented Generation), требующих извлечения текста. Kreuzberg поддерживает локальную работу, проста в управлении и недорога. Она сочетает в себе различные открытые и коммерческие возможности для обеспечения гибких возможностей извлечения текста.

Список функций
- Извлечение текста из PDF: Извлечение текстового содержимого из файлов PDF.
- OCR изображений/PDF: Оптическое распознавание символов на изображениях и PDF-файлах с помощью Tesseract-OCR.
- Извлечение текста не из PDF: Извлечение текста в других форматах с помощью Pandoc.
- локальная операция: Поддержка локальной установки и эксплуатации, простота контроля и управления.
- С открытым исходным кодом и бесплатно: Основано на лицензии MIT с открытым исходным кодом, бесплатно.
Использование помощи
Процесс установки
- Установка пакетов Python::
pip install kreuzberg
- Установка системных зависимостей::
- Pandoc: для извлечения текста не из PDF (лицензия GPL v2.0, используется только как CLI).
- Tesseract-OCR: OCR для изображений и PDF-файлов (лицензия Apache).
Руководство по использованию
- Основное использование::
- Импортируйте библиотеку и инициализируйте ее:
python
from kreuzberg import Kreuzberg
extractor = Kreuzberg() - Извлечение текста PDF:
python
text = extractor.extract_text('path/to/pdf/file.pdf')
print(text)
- Импортируйте библиотеку и инициализируйте ее:
- Функция OCR::
- OCR изображения или PDF-файла:
python
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- OCR изображения или PDF-файла:
- Извлечение текста не из PDF::
- Используйте Pandoc для извлечения текста в других форматах:
python
other_text = extractor.extract_text('path/to/other/file')
print(other_text)
- Используйте Pandoc для извлечения текста в других форматах:
Подробный порядок работы функций
- Извлечение текста из PDF::
- Убедитесь, что путь к файлу PDF указан правильно.
- пользоваться
extract_text
метод для извлечения текста. - Обработайте извлеченные текстовые данные для последующих операций.
- Функция OCR::
- Установите и настройте Tesseract-OCR.
- пользоваться
ocr
метод OCR-обработки изображений или PDF-файлов. - Получение и обработка результатов OCR.
- Извлечение текста не из PDF::
- Установите и настройте Pandoc.
- пользоваться
extract_text
метод для извлечения текста в других форматах. - Обработайте извлеченные текстовые данные для последующих операций.
Выполнив описанные выше действия, пользователи смогут легко начать работу с операциями по извлечению текста из Kreuzberg для решения различных задач по обработке текста.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...