Автоматический разбор содержимого PDF и извлечение текста и форм из сервисов с открытым исходным кодом
Общее введение
Он автоматически анализирует макет PDF-документов, определяет текст, заголовки, изображения, таблицы, формулы и другие элементы на странице, а также их правильный порядок. Инструмент поддерживает функцию OCR, вы можете сканировать PDF в текст с возможностью поиска. Он работает под управлением Docker и предоставляет две модели: визуальную (Vision Grid Transformer, или VGT) и LightGBM. Первая отличается высокой точностью, но требует больших затрат ресурсов, вторая - быстрая и экономная. Текущая версия - v0.0.21, бесплатная и открытая на GitHub, подходит для исследователей, которым необходимо работать с PDF, архивистов и так далее.

Список функций
- Автоматическое определение текста, заголовков, изображений, таблиц, формул и других элементов на страницах PDF.
- Поддержка функции OCR для преобразования отсканированного PDF в текст с возможностью поиска.
- Определите правильный порядок чтения элементов страницы.
- Предусмотрено два режима анализа: визуальная модель (VGT) и модель LightGBM.
- Извлечение таблиц и поддержка нескольких форматов для вывода, таких как Markdown, LaTeX, HTML.
- Извлекает формулы и по умолчанию выводит в формате LaTeX.
- Поддержка многоязычного OCR, например, английского, корейского и т.д.
- Предоставляет API-интерфейс для интеграции в другие проекты.
- Поддерживает визуальный вывод, создавая PDF-файлы с аннотациями.
Использование помощи
Процесс установки
Этот инструмент работает с Docker, а его установка выполняется следующим образом:
- Подготовка среды
Сначала установите Docker. Перейдите на сайт Docker, чтобы загрузить и установить его. После установки введите в терминале:
docker --version
Если отображается номер версии, значит, все прошло успешно. При использовании GPU вам также необходимо установить NVIDIA Container Toolkit, см.Руководство по установке.
- Вытягивание зеркал
Введите команду в терминале, чтобы извлечь образ инструмента:
- Есть графический процессор:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- Нет графического процессора:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- Операционные услуги
Запустите службу двумя способами:
- Есть графический процессор:
docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
- Нет графического процессора:
docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
Когда служба запускается, она по умолчанию прослушивает порт 5060. Если порт занят, его можно изменить на другой, например 5061.
- служба проверки
Откройте браузер и посетитеhttp://localhost:5060/info
Если информация о версии возвращается, это означает, что программа работает нормально.
Как использовать основные функции
Инструмент работает через API со следующими общими функциями:
1. функция OCR
Чтобы преобразовать отсканированный PDF в текст, пригодный для поиска, можно использовать OCR.
- процедура::
Подготовьте PDF-файл, напримерtest.pdf
Запустите в терминале:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
language=en
является английским и может быть заменен наkor
(корейский) и т.д. Поддерживаемые языки доступны черезcurl localhost:5060/info
Вид./path/to/test.pdf
это путь к файлу, например/home/user/test.pdf
.- выходной файл
result.pdf
будет сохранен в текущем каталоге. - в конце концов::
Получите PDF-файл с возможностью поиска и копирования текста.
2. Анализ макета
Извлечение элементов из PDF и анализ макета:
- процедура::
Бег:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
- выходной файл
analysis.json
Содержит информацию об элементе, такую как местоположение, тип (текст, таблица и т. д.). - в конце концов::
В файле JSON содержится подробная информация о каждом элементе.
3. быстрый режим
Хотите ускорить обработку, используйте модель LightGBM, добавьте параметрыfast=true
::
curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
- принимать к сведению: Быстро, но чуть менее точно.
4. извлечение таблиц и формул
- Форма отзыва::
Укажите формат (например, Markdown):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json
адъювантmarkdown
, иlatex
, иhtml
Формат.
- Формула экстракции::
По умолчанию выводится формат LaTeX, который можно использовать непосредственно с командой Layout Analysis.
5. визуальный вывод
Хотелось бы увидеть аннотированный PDF:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
- в конце концов::
В выходном файле PDF будут указаны местоположение и тип каждого элемента.
6. добавление языковой поддержки
По умолчанию поддерживается небольшое количество языков, хотелось бы добавить больше языков (например, китайский):
- Войдите в контейнер:
docker exec -it --user root pdf-analysis /bin/bash
- Установите языковые пакеты, например, китайский:
apt-get install tesseract-ocr-chi-sim
- Проверьте:
curl localhost:5060/info
видеть, чтоchi_sim
Означает успех.
7. прекращение предоставления услуг
Прекращение предоставления услуг:
docker stop pdf-analysis
Порядок вывода элементов
Результаты анализа представляются в определенном порядке. Инструмент использует Poppler для определения первоначального порядка чтения, который затем корректируется в зависимости от типа элемента:
- Заголовок находится в верхней части страницы и отсортирован по внутреннему порядку.
- Общие элементы (текст, таблицы и т. д.) расположены в среднем порядке чтения.
- Нижний колонтитул и сноски размещаются в последнюю очередь.
- Элементы без текста (например, изображения) упорядочиваются в соответствии с порядком ближайшего элемента с текстом.
предостережение
- требования к оборудованиюВизуальная модель требует GPU и 5 ГБ видеопамяти, без GPU она будет медленно работать с CPU. lightGBM - только CPU и требует 2 ГБ оперативной памяти.
- темп: 15 страниц научных статей, 0,42 секунды на страницу в быстром режиме, 1,75 секунды на страницу в VGT (GPU), 13,5 секунды на страницу в VGT (CPU).
- регулировка компонентов во время тестирования: Просмотр журнала, если что-то пошло не так:
docker logs pdf-analysis
Эти функции и шаги помогут вам быстро приступить к работе и справиться с различными потребностями в PDF.
сценарий применения
- научные исследования
Исследователи используют его для извлечения таблиц и формул из документов и более эффективной организации данных. - управление файлами
Архивариусы преобразуют сканы старых документов в PDF-файлы с возможностью поиска, которые легко найти. - Юридическая работа
Адвокаты анализируют PDF-файлы договоров, чтобы быстро находить пункты и формы.
QA
- Это платно?
Бесплатно. Это инструмент с открытым исходным кодом, его можно бесплатно скачать и использовать на GitHub. - Нужна ли мне сеть?
Для загрузки образа требуется подключение к Интернету, после чего его можно запускать в автономном режиме. - Поддерживает ли он китайский язык?
Поддержка. Требуется ручная установка китайских пакетов (например.tesseract-ocr-chi-sim
), чуть менее эффективный, чем английский, но вполне пригодный для использования.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...