OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные
Общее введение
OmniParse - это мощная платформа для разбора и оптимизации данных, предназначенная для преобразования любых неструктурированных данных в структурированные, пригодные для использования данные, оптимизированные для фреймворков GenAI (Generative Artificial Intelligence). Независимо от того, работаете ли вы с документами, таблицами, изображениями, видео, аудиофайлами или веб-контентом, OmniParse сделает ваши данные чистыми, структурированными и готовыми для применения ИИ, таких как RAG (Retrieval Augmented Generation) и тонкая настройка.


- Адрес для демонстраций с открытым исходным кодом: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Список функций
- Полностью локализовано, не требует внешнего API
- Для графических процессоров T4
- Поддерживает около 20 типов файлов
- Преобразование документов, мультимедиа и веб-страниц в высококачественный структурированный Markdown
- Извлечение таблиц, извлечение изображений/субтитрование, транскрипция аудио/видео, просмотр веб-страниц
- Простое развертывание с помощью Docker и Skypilot
- Дружелюбная обстановка в лаборатории
- Интерактивный пользовательский интерфейс на базе Gradio
Использование помощи
Процесс установки
- склад клонов::
git clone https://github.com/adithya-s-k/omniparse cd omniparse - Создание виртуальной среды::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv - Установка зависимостей::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Использование Docker
- Извлечение образов OmniParse API из Docker Hub::
docker pull savatar101/omniparse:0.1 - Запустите контейнер Docker, открыв порт 8000.::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Операционный сервер
- Запустите сервер::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web--documents: Загрузите все модели, которые помогают разбирать и впитывать документы (например, семейство моделей Surya OCR и Florence-2).--media: Загрузка моделей Whisper для расшифровки аудио- и видеофайлов.--web: Настройка краулера Selenium.
Поддерживаемые типы данных
- (компьютерный) файл::
.doc,.docx,.pdf,.ppt,.pptx - изображения::
.png,.jpg,.jpeg,.tiff,.bmp,.heic - видео::
.mp4,.mkv,.avi,.mov - частота звука::
.mp3,.wav,.aac - веб-страница: динамические веб-страницы.
http://.com
Пример использования
- разрешение документа::
python server.py --host 0.0.0.0 --port 8000 --documentsПри этом загружаются все модели разбора документов, готовые к обработке данных этого типа.
- разбор мультимедиа::
python server.py --host 0.0.0.0 --port 8000 --mediaПри этом модель Whisper загружается, готовая к обработке аудио- и видеофайлов.
- веб-гусеница::
python server.py --host 0.0.0.0 --port 8000 --webЭто позволит настроить Selenium crawler, готовый к обработке веб-контента.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...





