Allgemeine Einführung
E2M (Everything to Markdown) ist eine quelloffene Python-Bibliothek, die eine Vielzahl von Dateiformaten in das Markdown-Format konvertieren kann. Das Tool unterstützt eine Vielzahl von Dateitypen, darunter doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 und m4a. E2M verwendet eine Parser-Transformator-Architektur, die den Inhalt von Dateien effizient analysiert und umwandelt und flexible Konfigurationsoptionen für die verbesserte Datenabfrage (RAG) und das Modelltraining oder die Feinabstimmung bietet. Ziel von E2M ist es, den Nutzern qualitativ hochwertige Datenkonvertierungsdienste anzubieten, die den Prozess der Harmonisierung von Dokumentenformaten vereinfachen. Für jedes Format gibt es einen eigenen Parser und Konverter, wobei der Parser Text und Bilder aus der Datei extrahiert und der Konverter den extrahierten Inhalt in Markdown umwandelt.
Funktionsliste
- DateiparsingUnterstützt das Parsen mehrerer Dateitypen, einschließlich Text- und Bilddaten.
- FormatkonvertierungKonvertiert die geparsten Daten in das Markdown-Format.
- Mehrere Parser und KonverterParser und Konverter, die verschiedene Engines und Strategien unterstützen.
- Offene Quelle und flexible KonfigurationBietet einen offenen Quellcode und flexible Konfigurationsoptionen, die vom Benutzer angepasst werden können.
- API-DiensteBietet API-Dienste zur einfachen Integration in andere Anwendungen.
Hilfe verwenden
Ablauf der Installation
- Die Umwelt gestalten::
conda create -n e2m python=3.10
conda activate e2m
- Pip aktualisieren::
pip install --upgrade pip
- Installation von E2M::
- Installation über git (empfohlen):
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
- Installation über pip:
bash
pip install --upgrade wisup_e2m
- Manuelle Installation:
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
Poesie bauen
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- Installation über git (empfohlen):
Verwendung
- Starten des API-Dienstes::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- Zugang zur API-Dokumentation: Öffnen Sie Ihren Browser und besuchen Sie
http://127.0.0.1:8000/docs
um die API-Dokumentation und Anwendungsbeispiele zu sehen.
Hauptfunktionen
- Dateiparsing und -konvertierung::
- Analysiert den Inhalt der Datei mit Hilfe eines Parsers:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('beispiel.pdf')
- Verwenden Sie einen Konverter, um den geparsten Inhalt in das Markdown-Format zu konvertieren:
from wisup_e2m.converters import TextKonverter Konverter = TextKonverter() markdown_data = converter.convert(text_data)
- Benutzerdefinierte Konfiguration::
- Ändern Sie die Konfigurationsdatei
config.yaml
Passen Sie die Parameter des Parsers und des Konverters an die jeweiligen Bedürfnisse an:
Parsers. pdf. engine: 'unstructured' Konverter. text: engine: 'litellm' engine: 'litellm'
- Ändern Sie die Konfigurationsdatei
- Integration in andere Anwendungen::
- Integrieren Sie E2M in andere Anwendungen mit Hilfe von API-Diensten, um HTTP-Anfragen für das Parsen und Konvertieren von Dateien zu senden:
python
Einfuhrgesuche
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- Integrieren Sie E2M in andere Anwendungen mit Hilfe von API-Diensten, um HTTP-Anfragen für das Parsen und Konvertieren von Dateien zu senden: