OmniParse : extrait des données non structurées de documents/multimédias et les analyse en données structurées.

Introduction générale

OmniParse est une puissante plateforme d'analyse et d'optimisation de données conçue pour transformer toutes les données non structurées en données structurées, exploitables et optimisées pour les frameworks GenAI (Generative Artificial Intelligence). Que vous travailliez avec des documents, des tableaux, des images, des vidéos, des fichiers audio ou du contenu web, OmniParse rend vos données propres, structurées et prêtes pour les applications d'IA telles que RAG (Retrieval Augmented Generation) et la mise au point.

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

 

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据
Adresse de la démo open source : https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Liste des fonctions

  • Entièrement localisé, aucune API externe n'est nécessaire
  • Pour les GPU T4
  • Prise en charge d'environ 20 types de fichiers
  • Convertir des documents, des supports multimédias et des pages web en Markdown structuré de haute qualité
  • Extraction de tableaux, extraction d'images/sous-titrage, transcription audio/vidéo, exploration du web
  • Déploiement facile avec Docker et Skypilot
  • Environnement de travail convivial
  • Interface utilisateur interactive optimisée par Gradio

Utiliser l'aide

Processus d'installation

  1. entrepôt de clones: :
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. Créer un environnement virtuel: :
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Installation des dépendances: :
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Utilisation de Docker

  1. Extraction des images de l'API OmniParse à partir de Docker Hub: :
    docker pull savatar101/omniparse:0.1
    
  2. Exécuter le conteneur Docker, en exposant le port 8000: :
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Serveur d'opérations

  1. Démarrer le serveur: :
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documentsChargement de tous les modèles qui permettent d'analyser et d'ingérer des documents (par exemple, la famille de modèles Surya OCR et Florence-2).
    • --mediaLes modèles Whisper : Chargez des modèles Whisper pour transcrire des fichiers audio et vidéo.
    • --web: Mise en place du crawler Selenium.

Types de données pris en charge

  • fichier (informatique): :.doc.docx.pdf.ppt.pptx
  • imagerie: :.png.jpg.jpeg.tiff.bmp.heic
  • vidéo: :.mp4.mkv.avi.mov
  • fréquence du son: :.mp3.wav.aac
  • page web: pages web dynamiques.http://.com

exemple d'utilisation

  1. résolution des documents: :
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    Cela permet de charger tous les modèles d'analyse de documents prêts à traiter les données du type de document.

  2. analyse syntaxique multimédia: :
    python server.py --host 0.0.0.0 --port 8000 --media
    

    Le modèle Whisper est alors prêt à traiter les fichiers audio et vidéo.

  3. robot d'exploration: :
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Cela permet de mettre en place le crawler Selenium, prêt à traiter le contenu web.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...