OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Общее введение

OmniParse - это мощная платформа для разбора и оптимизации данных, предназначенная для преобразования любых неструктурированных данных в структурированные, пригодные для использования данные, оптимизированные для фреймворков GenAI (Generative Artificial Intelligence). Независимо от того, работаете ли вы с документами, таблицами, изображениями, видео, аудиофайлами или веб-контентом, OmniParse сделает ваши данные чистыми, структурированными и готовыми для применения ИИ, таких как RAG (Retrieval Augmented Generation) и тонкая настройка.

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

 

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据
Адрес для демонстраций с открытым исходным кодом: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Список функций

  • Полностью локализовано, не требует внешнего API
  • Для графических процессоров T4
  • Поддерживает около 20 типов файлов
  • Преобразование документов, мультимедиа и веб-страниц в высококачественный структурированный Markdown
  • Извлечение таблиц, извлечение изображений/субтитрование, транскрипция аудио/видео, просмотр веб-страниц
  • Простое развертывание с помощью Docker и Skypilot
  • Дружелюбная обстановка в лаборатории
  • Интерактивный пользовательский интерфейс на базе Gradio

Использование помощи

Процесс установки

  1. склад клонов::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. Создание виртуальной среды::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Установка зависимостей::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Использование Docker

  1. Извлечение образов OmniParse API из Docker Hub::
    docker pull savatar101/omniparse:0.1
    
  2. Запустите контейнер Docker, открыв порт 8000.::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Операционный сервер

  1. Запустите сервер::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documents: Загрузите все модели, которые помогают разбирать и впитывать документы (например, семейство моделей Surya OCR и Florence-2).
    • --media: Загрузка моделей Whisper для расшифровки аудио- и видеофайлов.
    • --web: Настройка краулера Selenium.

Поддерживаемые типы данных

  • (компьютерный) файл::.doc.docx.pdf.ppt.pptx
  • изображения::.png.jpg.jpeg.tiff.bmp.heic
  • видео::.mp4.mkv.avi.mov
  • частота звука::.mp3.wav.aac
  • веб-страница: динамические веб-страницы.http://.com

Пример использования

  1. разрешение документа::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    При этом загружаются все модели разбора документов, готовые к обработке данных этого типа.

  2. разбор мультимедиа::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    При этом модель Whisper загружается, готовая к обработке аудио- и видеофайлов.

  3. веб-гусеница::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Это позволит настроить Selenium crawler, готовый к обработке веб-контента.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...