Docling: поддержка различных форматов, разбор и экспорт документов в формате Markdown и JSON, поддержка OCR в формате PDF.

Общее введение

Docling - это мощный инструмент для разбора и экспорта документов, поддерживающий широкий спектр форматов, включая PDF, DOCX, PPTX, XLSX, изображения, HTML, AsciiDoc и Markdown. Он разбирает и экспортирует эти документы в форматы HTML, Markdown и JSON, с поддержкой вставки и ссылок на изображения. Docling обеспечивает расширенное понимание PDF-документов, включая разбор макета страницы, порядок чтения и структуру таблиц. Docling также поддерживает технологию OCR для сканирования PDF-документов. Docling легко интегрируется и поддерживает интеграцию с мощными RAG/QA-приложениями LlamaIndex и LangChain, предоставляя простой и удобный интерфейс командной строки (CLI).

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

 

Список функций

  • Разбор документов различных форматов (PDF, DOCX, PPTX, XLSX, изображения, HTML, AsciiDoc, Markdown).
  • Экспорт в форматы HTML, Markdown и JSON
  • Расширенное понимание PDF-документов (расположение страниц, порядок чтения, структура таблиц)
  • Поддержка технологии OCR для анализа отсканированных PDF-файлов
  • Предоставляет унифицированный формат представления документов DoclingDocument.
  • Простая интеграция с LlamaIndex и LangChain
  • Простой и удобный интерфейс командной строки (CLI)

 

Использование помощи

Процесс установки

Чтобы использовать Docling, просто установите docling из менеджера пакетов, например, с помощью pip:

pip install docling

Docling доступен для сред macOS, Linux и Windows и поддерживает архитектуры x86_64 и arm64. Подробные инструкции по установке можно найти в официальной документации.

Руководство по использованию

Преобразование одного документа

Для преобразования отдельных документов можно использовать convert() Методы, например:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

Расширенное использование

Docling предлагает богатый набор дополнительных опций, которые можно настраивать и расширять по мере необходимости. Подробные инструкции и примеры можно найти в официальной документации.

Функции Поток операций

  1. разрешение документа: Импортируйте документ в Docling и используйте встроенный парсер для разбора содержимого документа.
  2. преобразование форматов: Выберите формат, который необходимо экспортировать (HTML, Markdown, JSON), и используйте соответствующую функцию экспорта для преобразования формата.
  3. Анализ OCR: Для отсканированных документов PDF включите функцию OCR для извлечения текстового содержимого документа.
  4. интегрированное приложение: Интегрируйте Docling с LlamaIndex или LangChain для создания мощных приложений RAG/QA.
  5. работа в командной строке: Используйте инструменты CLI, предоставляемые Docling, для быстрого выполнения операций по разбору и экспорту документов.

Функции разбора и экспорта документов Docling - мощные и простые в использовании для широкого спектра задач обработки документов. Пользователи могут быстро начать работу и использовать все возможности Docling благодаря подробной официальной документации и примерам.

© заявление об авторских правах

Похожие статьи

Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...