OmniParse : extrait des données non structurées de documents/multimédias et les analyse en données structurées.
Introduction générale
OmniParse est une puissante plateforme d'analyse et d'optimisation de données conçue pour transformer toutes les données non structurées en données structurées, exploitables et optimisées pour les frameworks GenAI (Generative Artificial Intelligence). Que vous travailliez avec des documents, des tableaux, des images, des vidéos, des fichiers audio ou du contenu web, OmniParse rend vos données propres, structurées et prêtes pour les applications d'IA telles que RAG (Retrieval Augmented Generation) et la mise au point.

- Adresse de la démo open source : https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Liste des fonctions
- Entièrement localisé, aucune API externe n'est nécessaire
- Pour les GPU T4
- Prise en charge d'environ 20 types de fichiers
- Convertir des documents, des supports multimédias et des pages web en Markdown structuré de haute qualité
- Extraction de tableaux, extraction d'images/sous-titrage, transcription audio/vidéo, exploration du web
- Déploiement facile avec Docker et Skypilot
- Environnement de travail convivial
- Interface utilisateur interactive optimisée par Gradio
Utiliser l'aide
Processus d'installation
- entrepôt de clones: :
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Créer un environnement virtuel: :
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Installation des dépendances: :
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Utilisation de Docker
- Extraction des images de l'API OmniParse à partir de Docker Hub: :
docker pull savatar101/omniparse:0.1
- Exécuter le conteneur Docker, en exposant le port 8000: :
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Serveur d'opérations
- Démarrer le serveur: :
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
Chargement de tous les modèles qui permettent d'analyser et d'ingérer des documents (par exemple, la famille de modèles Surya OCR et Florence-2).--media
Les modèles Whisper : Chargez des modèles Whisper pour transcrire des fichiers audio et vidéo.--web
: Mise en place du crawler Selenium.
Types de données pris en charge
- fichier (informatique): :
.doc
,.docx
,.pdf
,.ppt
,.pptx
- imagerie: :
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- vidéo: :
.mp4
,.mkv
,.avi
,.mov
- fréquence du son: :
.mp3
,.wav
,.aac
- page web: pages web dynamiques.
http://.com
exemple d'utilisation
- résolution des documents: :
python server.py --host 0.0.0.0 --port 8000 --documents
Cela permet de charger tous les modèles d'analyse de documents prêts à traiter les données du type de document.
- analyse syntaxique multimédia: :
python server.py --host 0.0.0.0 --port 8000 --media
Le modèle Whisper est alors prêt à traiter les fichiers audio et vidéo.
- robot d'exploration: :
python server.py --host 0.0.0.0 --port 8000 --web
Cela permet de mettre en place le crawler Selenium, prêt à traiter le contenu web.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...