Introdução geral
O OmniParse é uma poderosa plataforma de análise e otimização de dados projetada para transformar quaisquer dados não estruturados em dados estruturados e acionáveis otimizados para estruturas de GenAI (Inteligência Artificial Generativa). Independentemente de você estar trabalhando com documentos, tabelas, imagens, vídeos, arquivos de áudio ou conteúdo da Web, o OmniParse torna seus dados limpos, estruturados e prontos para aplicativos de IA, como RAG (Retrieval Augmented Generation) e ajuste fino.
- Endereço de demonstração de código aberto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Lista de funções
- Totalmente localizado, sem necessidade de API externa
- Para GPUs T4
- Suporta cerca de 20 tipos de arquivos
- Converta documentos, multimídia e páginas da Web em Markdown estruturado de alta qualidade
- Extração de tabelas, extração/legenda de imagens, transcrição de áudio/vídeo, rastreamento da Web
- Implementação fácil com o Docker e o Skypilot
- Ambiente de colaboração amigável
- UI interativa com tecnologia Gradio
Usando a Ajuda
Processo de instalação
- armazém de clones::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Criação de um ambiente virtual::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Instalação de dependências::
instalação de poesia # ou pip install -e . # ou pip install -r pyproject.toml
Usando o Docker
- Extração de imagens da API do OmniParse do Docker Hub::
docker pull savatar101/omniparse:0.1
- Execute o contêiner do Docker, expondo a porta 8000::
# Se estiver usando uma GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # Caso contrário docker run -p 8000:8000 savatar101/omniparse:0.1
Servidor de operações
- Iniciar o servidor::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documentos
Carregamento de todos os modelos que ajudam a analisar e ingerir documentos (por exemplo, a família de modelos Surya OCR e Florence-2).-mídia
Carregamento de modelos Whisper para transcrever arquivos de áudio e vídeo.--web
Configuração do rastreador Selenium.
Tipos de dados suportados
- Arquivo (de computador)::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- imagens::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- vídeo::
.mp4
,.mkv
,.avi
,.mov
- frequência sonora::
.mp3
,.wav
,.aac
- página da web: páginas dinâmicas da Web.
http://.com
exemplo de uso
- resolução de documentos::
python server.py --host 0.0.0.0 --port 8000 --documents
Isso carrega todos os modelos de análise de documentos prontos para processar dados do tipo de documento.
- análise de multimídia::
python server.py --host 0.0.0.0 --port 8000 --media
Isso carrega o modelo Whisper pronto para processar arquivos de áudio e vídeo.
- rastreador da web::
python server.py --host 0.0.0.0 --port 8000 --web
Isso configurará o rastreador Selenium, pronto para processar o conteúdo da Web.