OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.
Últimos recursos sobre IAActualizado hace 10 meses Círculo de intercambio de inteligencia artificial 11.2K 00
Introducción general
OmniParse es una potente plataforma de análisis sintáctico y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados, procesables y optimizados para marcos de GenAI (Inteligencia Artificial Generativa). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o contenidos web, OmniParse hace que sus datos estén limpios, estructurados y listos para aplicaciones de IA como RAG (Retrieval Augmented Generation) y el ajuste fino.

- Dirección de la demo de código abierto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Lista de funciones
- Totalmente localizado, sin necesidad de API externa
- Para GPU T4
- Admite unos 20 tipos de archivos
- Convierta documentos, multimedia y páginas web en Markdown estructurado de alta calidad
- Extracción de tablas, extracción/subtitulación de imágenes, transcripción de audio/vídeo, rastreo web
- Despliegue sencillo con Docker y Skypilot
- Entorno Colab agradable
- Interfaz de usuario interactiva con tecnología Gradio
Utilizar la ayuda
Proceso de instalación
- almacén de clones::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Creación de un entorno virtual::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Instalación de dependencias::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Uso de Docker
- Obtención de imágenes de la API OmniParse desde Docker Hub::
docker pull savatar101/omniparse:0.1
- Ejecute el contenedor Docker, exponiendo el puerto 8000::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Servidor de operaciones
- Iniciar el servidor::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
Carga todos los modelos que ayudan a analizar e ingerir documentos (por ejemplo, la familia de modelos Surya OCR y Florence-2).--media
: Carga modelos Whisper para transcribir archivos de audio y vídeo.--web
Configuración del rastreador Selenium.
Tipos de datos admitidos
- Archivo (informático)::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- imágenes::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- vídeo::
.mp4
,.mkv
,.avi
,.mov
- frecuencia sonora::
.mp3
,.wav
,.aac
- página web: páginas web dinámicas.
http://.com
ejemplo de uso
- resolución de documentos::
python server.py --host 0.0.0.0 --port 8000 --documents
Esto carga todos los modelos de análisis sintáctico de documentos listos para procesar datos del tipo de documento.
- análisis sintáctico multimedia::
python server.py --host 0.0.0.0 --port 8000 --media
Esto carga el modelo Whisper listo para procesar archivos de audio y vídeo.
- rastreador web::
python server.py --host 0.0.0.0 --port 8000 --web
Esto configurará el rastreador Selenium, listo para procesar contenido web.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...