E2M : Conversion de plusieurs formats de fichiers en Markdown, pour une mise en forme uniforme des documents
Introduction générale
E2M (Everything to Markdown) est une bibliothèque Python open source conçue pour convertir un large éventail de formats de fichiers au format Markdown. L'outil prend en charge un large éventail de types de fichiers, notamment doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 et m4a. E2M adopte une architecture d'analyseur-transformateur qui analyse et transforme efficacement le contenu des fichiers, offrant des options de configuration flexibles pour la génération améliorée d'extraction de données (RAG) et l'entraînement ou l'affinement des modèles. L'objectif d'E2M est de fournir aux utilisateurs des services de conversion de données de haute qualité qui simplifient le processus d'harmonisation des formats de documents. Chaque format dispose d'un analyseur et d'un convertisseur dédiés, utilisant l'analyseur Parser pour extraire le texte et les images du fichier, et le convertisseur Converter pour convertir le contenu extrait en Markdown.

Liste des fonctions
- analyse des fichiersLe logiciel d'analyse de données est un outil qui permet d'analyser plusieurs types de fichiers, y compris les données textuelles et les données d'image.
- conversion de format: Convertit les données analysées au format Markdown.
- Plusieurs analyseurs et convertisseursLes moteurs de recherche : des analyseurs et des convertisseurs qui prennent en charge différents moteurs et différentes stratégies.
- Open source et configuration flexibleLe logiciel de gestion de l'information : Il fournit un code source ouvert et des options de configuration flexibles qui peuvent être personnalisées par l'utilisateur.
- Services APILe système de gestion de l'information : il fournit des services API pour faciliter l'intégration dans d'autres applications.
Utiliser l'aide
Processus d'installation
- Créer l'environnement: :
conda create -n e2m python=3.10
conda activate e2m
- Mise à jour de la tuyauterie: :
pip install --upgrade pip
- Installation de l'E2M: :
- Installer via git (recommandé) :
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple - Installation via pip :
bash
pip install --upgrade wisup_e2m - Installation manuelle :
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
poetry build
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- Installer via git (recommandé) :
Utilisation
- Démarrer le service API: :
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- Accès à la documentation de l'API: Ouvrez votre navigateur et visitez le site
http://127.0.0.1:8000/docs
pour consulter la documentation de l'API et des exemples d'utilisation.
Principales fonctions
- Analyse et conversion de fichiers: :
- Analyse le contenu du fichier à l'aide d'un analyseur :
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- Utiliser un convertisseur pour convertir le contenu analysé au format Markdown :
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(text_data)
- Configuration personnalisée: :
- Modifier le fichier de configuration
config.yaml
Les paramètres de l'analyseur syntaxique et du convertisseur peuvent être ajustés en fonction des besoins :
parsers: pdf: engine: 'unstructured' converters: text: engine: 'litellm'
- Modifier le fichier de configuration
- Intégration dans d'autres applications: :
- Intégrer E2M dans d'autres applications en utilisant les services API pour envoyer des requêtes HTTP pour l'analyse et la conversion de fichiers :
python
import requests
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- Intégrer E2M dans d'autres applications en utilisant les services API pour envoyer des requêtes HTTP pour l'analyse et la conversion de fichiers :
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...