Allgemeine Einführung
magic-html ist eine Python-Bibliothek, die den Prozess der Extraktion von Inhalten aus HTML vereinfachen soll. Egal, ob es sich um komplexe HTML-Strukturen oder einfache Webseiten handelt, diese Bibliothek zielt darauf ab, eine bequeme und effiziente Schnittstelle für Benutzer zu bieten. Sie unterstützt multimodale Extraktion, mehrere Layoutextraktoren, einschließlich Artikel, Foren und Microsoft-Artikel, und unterstützt auch die Umwandlung der Latex-Formel-Extraktion.
Funktionsliste
- Extrahieren von HTML-Body-Bereichsinhalten
- Unterstützung für multimodale Extraktion
- Layout von Support-Artikeln, Foren und Weibo-Posts
- Unterstützung der Extraktion und Umwandlung von Latexformeln
- Individuelle Ausgabe im einfachen Text- oder Markdown-Format
Hilfe verwenden
Montage
Um magic-html zu installieren, verwenden Sie den Befehl pip:
pip installieren magic-html
ausnutzen
Nach der Installation kann es mit dem folgenden Code verwendet werden:
von magic_html importieren Allgemeiner Extraktor
# Initialisierungsextraktor
Abzieher = Allgemeiner Extraktor()
# Beispiel HTML-Inhalt
html = """
Beispiel Domain
<body
Beispiel-Domain</h1
Diese Domain ist für die Verwendung in illustrativen Beispielen in Dokumenten vorgesehen. Sie dürfen diese Domain in der Literatur ohne vorherige Abstimmung oder Anfrage verwenden. Sie können diese Domain in der Literatur ohne vorherige Absprache oder Erlaubnis verwenden.
Weitere Informationen. """ # Extraktion von Daten Daten = Abzieher.Auszug(html) drucken(Daten)