Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Dernières ressources sur l'IAMise à jour il y a 1 an Cercle de partage de l'IA

21.7K 00

Introduction générale

Unstructured-IO fournit une gamme de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. L'objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les applications LLM (Large Language Model). Les fonctionnalités modulaires et les connecteurs d'Unstructured-IO forment un système unifié qui rend l'ingestion et le prétraitement des données efficaces et adaptables à différentes plates-formes.

Liste des fonctions

Acquisition et prétraitement des données
Prise en charge de plusieurs types de documents (PDF, HTML, Word, etc.)
Fonctions et connecteurs modulaires
Fournit des API et des bibliothèques client open source
Prise en charge du déploiement en conteneur Docker
Fournir des API sans serveur pour améliorer les performances

Utiliser l'aide

Processus d'installation

Utilisation de la bibliothèque d'exécution des conteneurs Docker
- Assurez-vous que Docker est installé.
- Exécutez la commande suivante pour télécharger et exécuter l'image Docker appropriée :
```
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
```
Installer des bibliothèques à partir de PyPI
- Utilisez pip pour l'installation :
```
pip install unstructured
```

Installation de développement local

Cloner un dépôt GitHub :

git clone https://github.com/Unstructured-IO/unstructured.git
cd unstructured
pip install -e .

Lignes directrices pour l'utilisation

L'ingestion de données

utiliser unstructured La bibliothèque ingère des documents :

from unstructured.partition.pdf import partition_pdf
document = partition_pdf("example.pdf")

Prétraitement des données
- Nettoyer les documents et les classer par ordre de priorité :
```
from unstructured.cleaners.core import clean
cleaned_document = clean(document)
```

Connexion aux sources de données et aux cibles

Utilisez le connecteur pour transférer les données vers l'emplacement cible :

from unstructured.connectors import send_to_destination
send_to_destination(cleaned_document, destination="s3://bucket-name")

API sans serveur

Enregistrez-vous et obtenez la clé API :

entretiens Page d'enregistrement de l'API non structurée.

Obtenez la clé API et commencez à l'utiliser :

import requests
headers = {"Authorization": "Bearer YOUR_API_KEY"}
response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Petal : utilisation de l'IA pour analyser et gérer les documents, récupération de plusieurs documents pour générer des réponses bien documentées.

Dernières ressources sur l'IA # AI Rédaction # Recherche de connaissances et cadre RAG

Il y a 8 mois

020.7K

dots.ocr - un modèle d'analyse de documents multilingues open source du Little Red Book hi lab

Dernières ressources sur l'IA

Il y a 2 mois

024.6K

llamafile：使用单个文件分发和运行 LLMs，简化LLM部署，跨平台支持LLMs

llamafile : distribuer et exécuter des LLM à l'aide d'un seul fichier, simplifier le déploiement des LLM, support multiplateforme pour les LLM

Dernières ressources sur l'IA # Outil de grand modèle à source ouverte déployé localement

Il y a 8 mois

018.4K

HyperBooth AI : générer rapidement différents styles de photos à partir d'un seul selfie

Dernières ressources sur l'IA # AI Image Style Control # AI Face Swap and Dress Up (échange de visages et habillage)

Il y a 11 mois

019.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Umi-OCR : logiciel open source d'OCR hors ligne, reconnaissance d'images par lots et reconnaissance de PDF

Pix2Text : outil de reconnaissance d'images et de textes libre et gratuit

Articles connexes

Petal : utilisation de l'IA pour analyser et gérer les documents, récupération de plusieurs documents pour générer des réponses bien documentées.

dots.ocr - un modèle d'analyse de documents multilingues open source du Little Red Book hi lab

llamafile : distribuer et exécuter des LLM à l'aide d'un seul fichier, simplifier le déploiement des LLM, support multiplateforme pour les LLM

HyperBooth AI : générer rapidement différents styles de photos à partir d'un seul selfie

Pas de commentaires

Dernières collections

Derniers articles

Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Umi-OCR : logiciel open source d'OCR hors ligne, reconnaissance d'images par lots et reconnaissance de PDF

Pix2Text : outil de reconnaissance d'images et de textes libre et gratuit

Articles connexes

Petal : utilisation de l'IA pour analyser et gérer les documents, récupération de plusieurs documents pour générer des réponses bien documentées.

dots.ocr - un modèle d'analyse de documents multilingues open source du Little Red Book hi lab

llamafile : distribuer et exécuter des LLM à l'aide d'un seul fichier, simplifier le déploiement des LLM, support multiplateforme pour les LLM

HyperBooth AI : générer rapidement différents styles de photos à partir d'un seul selfie

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles