OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Introducción general

OmniParse es una potente plataforma de análisis sintáctico y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados, procesables y optimizados para marcos de GenAI (Inteligencia Artificial Generativa). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o contenidos web, OmniParse hace que sus datos estén limpios, estructurados y listos para aplicaciones de IA como RAG (Retrieval Augmented Generation) y el ajuste fino.

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

 

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据
Dirección de la demo de código abierto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Lista de funciones

  • Totalmente localizado, sin necesidad de API externa
  • Para GPU T4
  • Admite unos 20 tipos de archivos
  • Convierta documentos, multimedia y páginas web en Markdown estructurado de alta calidad
  • Extracción de tablas, extracción/subtitulación de imágenes, transcripción de audio/vídeo, rastreo web
  • Despliegue sencillo con Docker y Skypilot
  • Entorno Colab agradable
  • Interfaz de usuario interactiva con tecnología Gradio

Utilizar la ayuda

Proceso de instalación

  1. almacén de clones::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. Creación de un entorno virtual::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Instalación de dependencias::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Uso de Docker

  1. Obtención de imágenes de la API OmniParse desde Docker Hub::
    docker pull savatar101/omniparse:0.1
    
  2. Ejecute el contenedor Docker, exponiendo el puerto 8000::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Servidor de operaciones

  1. Iniciar el servidor::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documentsCarga todos los modelos que ayudan a analizar e ingerir documentos (por ejemplo, la familia de modelos Surya OCR y Florence-2).
    • --media: Carga modelos Whisper para transcribir archivos de audio y vídeo.
    • --webConfiguración del rastreador Selenium.

Tipos de datos admitidos

  • Archivo (informático)::.doc.docx.pdf.ppt.pptx
  • imágenes::.png.jpg.jpeg.tiff.bmp.heic
  • vídeo::.mp4.mkv.avi.mov
  • frecuencia sonora::.mp3.wav.aac
  • página web: páginas web dinámicas.http://.com

ejemplo de uso

  1. resolución de documentos::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    Esto carga todos los modelos de análisis sintáctico de documentos listos para procesar datos del tipo de documento.

  2. análisis sintáctico multimedia::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    Esto carga el modelo Whisper listo para procesar archivos de audio y vídeo.

  3. rastreador web::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Esto configurará el rastreador Selenium, listo para procesar contenido web.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...