Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

61.1K 00

Общее введение

Kreuzberg - это библиотека для упрощения извлечения текста из PDF-файлов, разработанная для обеспечения простого и удобного решения по извлечению текста. Библиотека особенно хорошо подходит для сервисов RAG (Retrieval-Augmented Generation), требующих извлечения текста. Kreuzberg поддерживает локальную работу, проста в управлении и недорога. Она сочетает в себе различные открытые и коммерческие возможности для обеспечения гибких возможностей извлечения текста.

Список функций

Извлечение текста из PDF: Извлечение текстового содержимого из файлов PDF.
OCR изображений/PDF: Оптическое распознавание символов на изображениях и PDF-файлах с помощью Tesseract-OCR.
Извлечение текста не из PDF: Извлечение текста в других форматах с помощью Pandoc.
локальная операция: Поддержка локальной установки и эксплуатации, простота контроля и управления.
С открытым исходным кодом и бесплатно: Основано на лицензии MIT с открытым исходным кодом, бесплатно.

Использование помощи

Процесс установки

Установка пакетов Python::

   pip install kreuzberg

Установка системных зависимостей::
- Pandoc: для извлечения текста не из PDF (лицензия GPL v2.0, используется только как CLI).
- Tesseract-OCR: OCR для изображений и PDF-файлов (лицензия Apache).

Руководство по использованию

Основное использование::
- Импортируйте библиотеку и инициализируйте ее: python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- Извлечение текста PDF: python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
Функция OCR::
- OCR изображения или PDF-файла: python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
Извлечение текста не из PDF::
- Используйте Pandoc для извлечения текста в других форматах: python other_text = extractor.extract_text('path/to/other/file') print(other_text)

Подробный порядок работы функций

Извлечение текста из PDF::
- Убедитесь, что путь к файлу PDF указан правильно.
- пользоватьсяextract_textметод для извлечения текста.
- Обработайте извлеченные текстовые данные для последующих операций.
Функция OCR::
- Установите и настройте Tesseract-OCR.
- пользоватьсяocrметод OCR-обработки изображений или PDF-файлов.
- Получение и обработка результатов OCR.
Извлечение текста не из PDF::
- Установите и настройте Pandoc.
- пользоватьсяextract_textметод для извлечения текста в других форматах.
- Обработайте извлеченные текстовые данные для последующих операций.

Выполнив описанные выше действия, пользователи смогут легко начать работу с операциями по извлечению текста из Kreuzberg для решения различных задач по обработке текста.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Voice Changer: Изменитель голоса в реальном времени, чтобы заставить ваших любимых аниме-персонажей петь!

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Клонирование голоса AI

1 год назад

068.9K

Цветные облачные сны: использование искусственного интеллекта для изучения и создания вашей истории или романа

Последние ресурсы по искусственному интеллекту # AI Writing Ролевая игра # AI

2 года назад

049.6K

Heeyo: ИИ-компаньон для сопровождения детей и интеллектуальный ИИ-партнер для повышения эффективности обучения детей (платно)

Последние ресурсы по искусственному интеллекту Образовательные инструменты # AI

1 год назад

064.8K

WeChat Video No. Downloader: Быстрое скачивание видео WeChat Video No., поддержка множества форматов и платформ

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

0110.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа

Общее введение

Список функций