OmniParse: extraia quaisquer dados não estruturados de documentos/multimídia e analise-os em dados estruturados

Introdução geral

O OmniParse é uma poderosa plataforma de análise e otimização de dados projetada para transformar quaisquer dados não estruturados em dados estruturados e acionáveis otimizados para estruturas de GenAI (Inteligência Artificial Generativa). Independentemente de você estar trabalhando com documentos, tabelas, imagens, vídeos, arquivos de áudio ou conteúdo da Web, o OmniParse torna seus dados limpos, estruturados e prontos para aplicativos de IA, como RAG (Retrieval Augmented Generation) e ajuste fino.

OmniParse: extraia qualquer dado não estruturado de documentos/multimídia e analise-o em dados estruturados-1

: Endereço de demonstração de código aberto: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

Lista de funções

Totalmente localizado, sem necessidade de API externa
Para GPUs T4
Suporta cerca de 20 tipos de arquivos
Converta documentos, multimídia e páginas da Web em Markdown estruturado de alta qualidade
Extração de tabelas, extração/legenda de imagens, transcrição de áudio/vídeo, rastreamento da Web
Implementação fácil com o Docker e o Skypilot
Ambiente de colaboração amigável
UI interativa com tecnologia Gradio

Usando a Ajuda

Processo de instalação

armazém de clones::

git clone https://github.com/adithya-s-k/omniparse
cd omniparse

Criação de um ambiente virtual::

conda create -n omniparse-venv python=3.10
conda activate omniparse-venv

Instalação de dependências::

instalação de poesia
# ou
pip install -e .
# ou
pip install -r pyproject.toml

Usando o Docker

Extração de imagens da API do OmniParse do Docker Hub::
```
docker pull savatar101/omniparse:0.1
```

Execute o contêiner do Docker, expondo a porta 8000::

# Se estiver usando uma GPU
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# Caso contrário
docker run -p 8000:8000 savatar101/omniparse:0.1

Servidor de operações

Iniciar o servidor::
```
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
```
- --documentosCarregamento de todos os modelos que ajudam a analisar e ingerir documentos (por exemplo, a família de modelos Surya OCR e Florence-2).
- -mídiaCarregamento de modelos Whisper para transcrever arquivos de áudio e vídeo.
- --webConfiguração do rastreador Selenium.

Tipos de dados suportados

Arquivo (de computador)::.doc, .docx, .pdf, .ppt, .pptx
imagens::.png, .jpg, .jpeg, .tiff, .bmp, .heic
vídeo::.mp4, .mkv, .avi, .mov
frequência sonora::.mp3, .wav, .aac
página da web: páginas dinâmicas da Web.http://.com

exemplo de uso

resolução de documentos::
```
python server.py --host 0.0.0.0 --port 8000 --documents
```
Isso carrega todos os modelos de análise de documentos prontos para processar dados do tipo de documento.
análise de multimídia::
```
python server.py --host 0.0.0.0 --port 8000 --media
```
Isso carrega o modelo Whisper pronto para processar arquivos de áudio e vídeo.
rastreador da web::
```
python server.py --host 0.0.0.0 --port 8000 --web
```
Isso configurará o rastreador Selenium, pronto para processar o conteúdo da Web.

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Usando o Docker

Servidor de operações

Tipos de dados suportados

exemplo de uso

Artigos relacionados

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA