Surya: Профессиональный многоязычный инструмент для распознавания документов, нативное развертывание с открытым исходным кодом

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

115.9K 00

Общее введение

Surya - это многоязычный инструментарий OCR документов с открытым исходным кодом, поддерживающий распознавание текста на более чем 90 языках. Он способен не только распознавать текст построчно, но и анализировать макет, определять порядок чтения и распознавать таблицы. Производительность Surya не уступает облачным сервисам при работе с широким спектром типов документов, включая PDF, изображения, документы Word и PPT. Инструментарий разработан таким образом, чтобы предоставить пользователям комплексное решение для разбора документов.

API хостинга: https://www.datalab.to/
Для PDF-файлов, изображений, документов Word и PowerPoint

Список функций

OCR: распознавание текста на более чем 90 языках
Построчное распознавание текста: автоматическое определение положения каждой строки текста в документе
Анализ макета: обнаружение таблиц, изображений, заголовков и других элементов в документе
Определение порядка чтения: выявление порядка чтения в документе
Распознавание таблиц: обнаружение строк и столбцов в таблице

Использование помощи

Процесс установки

Убедитесь, что установлены Python 3.9+ и PyTorch.
Если вы используете не Mac или GPU, вам может потребоваться сначала установить процессорную версию torch.
Используйте следующую команду для установки Surya:
```
pip install surya-ocr
```
При первом запуске Surya веса моделей загружаются автоматически.

Процесс использования

Проверьте и настройтеsurya/settings.pyпараметры в переменной окружения, вы можете отменить любые настройки с помощью переменной окружения.
Surya автоматически обнаруживает факельные устройства, но их можно переопределить вручную. Пример:
```
TORCH_DEVICE=cuda
```
Чтобы запустить приложение OCR, выполните следующую команду:
```
python run_ocr_app.py
```
При обработке документа вы можете выбрать различные функциональные модули, такие как распознавание текста, анализ макета и т. д.

Функции Поток операций

Функция OCR::
- Загружайте документы (PDF, изображения и т.д.).
- Выберите язык (поддерживается более 90 языков).
- Запустите распознавание OCR для извлечения текстового содержимого.
Построчное распознавание текста::
- Загрузите документ.
- Выполните построчное определение текста, чтобы получить положение каждой строки текста.
- Экспорт результатов тестирования.
Анализ макета::
- Загрузите документ.
- Выполните анализ макета, чтобы обнаружить в документе такие элементы, как таблицы, изображения, заголовки и т. д.
- Экспортируйте результаты анализа.
Проверка последовательности чтения::
- Загрузите документ.
- Запустите функцию определения порядка чтения, чтобы определить порядок чтения в документе.
- Экспорт результатов тестирования.
Распознавание форм::
- Загрузите документ.
- Запустите распознавание таблиц, чтобы обнаружить строки и столбцы в таблице.
- Экспортируйте результаты распознавания.

Surya предоставляет богатые функции парсинга документов, пользователи могут выбирать различные функциональные блоки в зависимости от своих потребностей. Для получения подробных инструкций по работе и настройке вы можете обратиться к официальной документации и примерам кода.