OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

51.3K 00

Introducción general

OmniParse es una potente plataforma de análisis sintáctico y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados, procesables y optimizados para marcos de GenAI (Inteligencia Artificial Generativa). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o contenidos web, OmniParse hace que sus datos estén limpios, estructurados y listos para aplicaciones de IA como RAG (Retrieval Augmented Generation) y el ajuste fino.

: Dirección de la demo de código abierto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

Lista de funciones

Totalmente localizado, sin necesidad de API externa
Para GPU T4
Admite unos 20 tipos de archivos
Convierta documentos, multimedia y páginas web en Markdown estructurado de alta calidad
Extracción de tablas, extracción/subtitulación de imágenes, transcripción de audio/vídeo, rastreo web
Despliegue sencillo con Docker y Skypilot
Entorno Colab agradable
Interfaz de usuario interactiva con tecnología Gradio

Utilizar la ayuda

Proceso de instalación

almacén de clones::

git clone https://github.com/adithya-s-k/omniparse
cd omniparse

Creación de un entorno virtual::

conda create -n omniparse-venv python=3.10
conda activate omniparse-venv

Instalación de dependencias::

poetry install
# 或者
pip install -e .
# 或者
pip install -r pyproject.toml

Uso de Docker

Obtención de imágenes de la API OmniParse desde Docker Hub::
```
docker pull savatar101/omniparse:0.1
```

Ejecute el contenedor Docker, exponiendo el puerto 8000::

# 如果使用GPU
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# 否则
docker run -p 8000:8000 savatar101/omniparse:0.1

Servidor de operaciones

Iniciar el servidor::
```
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
```
- --documentsCarga todos los modelos que ayudan a analizar e ingerir documentos (por ejemplo, la familia de modelos Surya OCR y Florence-2).
- --media: Carga modelos Whisper para transcribir archivos de audio y vídeo.
- --webConfiguración del rastreador Selenium.

Tipos de datos admitidos

Archivo (informático)::.doc, .docx, .pdf, .ppt, .pptx
imágenes::.png, .jpg, .jpeg, .tiff, .bmp, .heic
vídeo::.mp4, .mkv, .avi, .mov
frecuencia sonora::.mp3, .wav, .aac
página web: páginas web dinámicas.http://.com

ejemplo de uso

resolución de documentos::
```
python server.py --host 0.0.0.0 --port 8000 --documents
```
Esto carga todos los modelos de análisis sintáctico de documentos listos para procesar datos del tipo de documento.
análisis sintáctico multimedia::
```
python server.py --host 0.0.0.0 --port 8000 --media
```
Esto carga el modelo Whisper listo para procesar archivos de audio y vídeo.
rastreador web::
```
python server.py --host 0.0.0.0 --port 8000 --web
```
Esto configurará el rastreador Selenium, listo para procesar contenido web.