OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные
Общее введение
OmniParse - это мощная платформа для разбора и оптимизации данных, предназначенная для преобразования любых неструктурированных данных в структурированные, пригодные для использования данные, оптимизированные для фреймворков GenAI (Generative Artificial Intelligence). Независимо от того, работаете ли вы с документами, таблицами, изображениями, видео, аудиофайлами или веб-контентом, OmniParse сделает ваши данные чистыми, структурированными и готовыми для применения ИИ, таких как RAG (Retrieval Augmented Generation) и тонкая настройка.

- Адрес для демонстраций с открытым исходным кодом: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Список функций
- Полностью локализовано, не требует внешнего API
- Для графических процессоров T4
- Поддерживает около 20 типов файлов
- Преобразование документов, мультимедиа и веб-страниц в высококачественный структурированный Markdown
- Извлечение таблиц, извлечение изображений/субтитрование, транскрипция аудио/видео, просмотр веб-страниц
- Простое развертывание с помощью Docker и Skypilot
- Дружелюбная обстановка в лаборатории
- Интерактивный пользовательский интерфейс на базе Gradio
Использование помощи
Процесс установки
- склад клонов::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Создание виртуальной среды::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Установка зависимостей::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Использование Docker
- Извлечение образов OmniParse API из Docker Hub::
docker pull savatar101/omniparse:0.1
- Запустите контейнер Docker, открыв порт 8000.::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Операционный сервер
- Запустите сервер::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
: Загрузите все модели, которые помогают разбирать и впитывать документы (например, семейство моделей Surya OCR и Florence-2).--media
: Загрузка моделей Whisper для расшифровки аудио- и видеофайлов.--web
: Настройка краулера Selenium.
Поддерживаемые типы данных
- (компьютерный) файл::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- изображения::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- видео::
.mp4
,.mkv
,.avi
,.mov
- частота звука::
.mp3
,.wav
,.aac
- веб-страница: динамические веб-страницы.
http://.com
Пример использования
- разрешение документа::
python server.py --host 0.0.0.0 --port 8000 --documents
При этом загружаются все модели разбора документов, готовые к обработке данных этого типа.
- разбор мультимедиа::
python server.py --host 0.0.0.0 --port 8000 --media
При этом модель Whisper загружается, готовая к обработке аудио- и видеофайлов.
- веб-гусеница::
python server.py --host 0.0.0.0 --port 8000 --web
Это позволит настроить Selenium crawler, готовый к обработке веб-контента.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...