OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.
Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial 36.4K 00
Introducción general
OmniParse es una potente plataforma de análisis sintáctico y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados, procesables y optimizados para marcos de GenAI (Inteligencia Artificial Generativa). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o contenidos web, OmniParse hace que sus datos estén limpios, estructurados y listos para aplicaciones de IA como RAG (Retrieval Augmented Generation) y el ajuste fino.


- Dirección de la demo de código abierto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Lista de funciones
- Totalmente localizado, sin necesidad de API externa
- Para GPU T4
- Admite unos 20 tipos de archivos
- Convierta documentos, multimedia y páginas web en Markdown estructurado de alta calidad
- Extracción de tablas, extracción/subtitulación de imágenes, transcripción de audio/vídeo, rastreo web
- Despliegue sencillo con Docker y Skypilot
- Entorno Colab agradable
- Interfaz de usuario interactiva con tecnología Gradio
Utilizar la ayuda
Proceso de instalación
- almacén de clones::
git clone https://github.com/adithya-s-k/omniparse cd omniparse - Creación de un entorno virtual::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv - Instalación de dependencias::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Uso de Docker
- Obtención de imágenes de la API OmniParse desde Docker Hub::
docker pull savatar101/omniparse:0.1 - Ejecute el contenedor Docker, exponiendo el puerto 8000::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Servidor de operaciones
- Iniciar el servidor::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web--documentsCarga todos los modelos que ayudan a analizar e ingerir documentos (por ejemplo, la familia de modelos Surya OCR y Florence-2).--media: Carga modelos Whisper para transcribir archivos de audio y vídeo.--webConfiguración del rastreador Selenium.
Tipos de datos admitidos
- Archivo (informático)::
.doc,.docx,.pdf,.ppt,.pptx - imágenes::
.png,.jpg,.jpeg,.tiff,.bmp,.heic - vídeo::
.mp4,.mkv,.avi,.mov - frecuencia sonora::
.mp3,.wav,.aac - página web: páginas web dinámicas.
http://.com
ejemplo de uso
- resolución de documentos::
python server.py --host 0.0.0.0 --port 8000 --documentsEsto carga todos los modelos de análisis sintáctico de documentos listos para procesar datos del tipo de documento.
- análisis sintáctico multimedia::
python server.py --host 0.0.0.0 --port 8000 --mediaEsto carga el modelo Whisper listo para procesar archivos de audio y vídeo.
- rastreador web::
python server.py --host 0.0.0.0 --port 8000 --webEsto configurará el rastreador Selenium, listo para procesar contenido web.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





