Docling: поддержка различных форматов, разбор и экспорт документов в формате Markdown и JSON, поддержка OCR в формате PDF.
Общее введение
Docling - это мощный инструмент для разбора и экспорта документов, поддерживающий широкий спектр форматов, включая PDF, DOCX, PPTX, XLSX, изображения, HTML, AsciiDoc и Markdown. Он разбирает и экспортирует эти документы в форматы HTML, Markdown и JSON, с поддержкой вставки и ссылок на изображения. Docling обеспечивает расширенное понимание PDF-документов, включая разбор макета страницы, порядок чтения и структуру таблиц. Docling также поддерживает технологию OCR для сканирования PDF-документов. Docling легко интегрируется и поддерживает интеграцию с мощными RAG/QA-приложениями LlamaIndex и LangChain, предоставляя простой и удобный интерфейс командной строки (CLI).

Список функций
- Разбор документов различных форматов (PDF, DOCX, PPTX, XLSX, изображения, HTML, AsciiDoc, Markdown).
- Экспорт в форматы HTML, Markdown и JSON
- Расширенное понимание PDF-документов (расположение страниц, порядок чтения, структура таблиц)
- Поддержка технологии OCR для анализа отсканированных PDF-файлов
- Предоставляет унифицированный формат представления документов DoclingDocument.
- Простая интеграция с LlamaIndex и LangChain
- Простой и удобный интерфейс командной строки (CLI)
Использование помощи
Процесс установки
Чтобы использовать Docling, просто установите docling из менеджера пакетов, например, с помощью pip:
pip install docling
Docling доступен для сред macOS, Linux и Windows и поддерживает архитектуры x86_64 и arm64. Подробные инструкции по установке можно найти в официальной документации.
Руководство по использованию
Преобразование одного документа
Для преобразования отдельных документов можно использовать convert()
Методы, например:
from docling.document_converter import DocumentConverter
source = "path/to/document.pdf" # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出转换后的 Markdown 格式文档
Расширенное использование
Docling предлагает богатый набор дополнительных опций, которые можно настраивать и расширять по мере необходимости. Подробные инструкции и примеры можно найти в официальной документации.
Функции Поток операций
- разрешение документа: Импортируйте документ в Docling и используйте встроенный парсер для разбора содержимого документа.
- преобразование форматов: Выберите формат, который необходимо экспортировать (HTML, Markdown, JSON), и используйте соответствующую функцию экспорта для преобразования формата.
- Анализ OCR: Для отсканированных документов PDF включите функцию OCR для извлечения текстового содержимого документа.
- интегрированное приложение: Интегрируйте Docling с LlamaIndex или LangChain для создания мощных приложений RAG/QA.
- работа в командной строке: Используйте инструменты CLI, предоставляемые Docling, для быстрого выполнения операций по разбору и экспорту документов.
Функции разбора и экспорта документов Docling - мощные и простые в использовании для широкого спектра задач обработки документов. Пользователи могут быстро начать работу и использовать все возможности Docling благодаря подробной официальной документации и примерам.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...