Allgemeine Einführung
magic-html ist eine Python-Bibliothek, die den Prozess der Extraktion von Inhalten aus HTML vereinfachen soll. Egal, ob es sich um komplexe HTML-Strukturen oder einfache Webseiten handelt, diese Bibliothek zielt darauf ab, eine bequeme und effiziente Schnittstelle für Benutzer zu bieten. Sie unterstützt multimodale Extraktion, mehrere Layoutextraktoren, einschließlich Artikel, Foren und Microsoft-Artikel, und unterstützt auch die Umwandlung von Latex-Formel-Extraktion.
Funktionsliste
- Extrahieren von HTML-Body-Bereichsinhalten
- Unterstützung für multimodale Extraktion
- Layout von Support-Artikeln, Foren und Weibo-Posts
- Unterstützung der Extraktion und Umwandlung von Latexformeln
- Individuelle Ausgabe im einfachen Text- oder Markdown-Format
Hilfe verwenden
Montage
Um magic-html zu installieren, verwenden Sie den Befehl pip:
pip install magic-html
ausnutzen
Nach der Installation kann es mit dem folgenden Code verwendet werden:
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)
Funktion Betriebsablauf
- Initialisierung des Extraktors: Zuerst müssen Sie die magic-html-Bibliothek importieren und den Extraktor initialisieren.
- Vorbereitung des HTML-InhaltsHTML-Code: Bereiten Sie den HTML-Code vor, aus dem der Inhalt extrahiert werden soll, der in Form einer Zeichenkette vorliegen kann.
- Aufrufen der Extraktionsmethode: Verwendung
extract
Methode, um den Hauptteil zu extrahieren. Je nach Bedarf können verschiedene HTML-Typen angegeben werden, z. B. Artikel, Foren oder WeChat-Beiträge. - AusgabeergebnisDas Ergebnis der Extraktion kann je nach den Bedürfnissen des Benutzers im reinen Text- oder Markdown-Format vorliegen.
typisches Beispiel
Nachfolgend finden Sie ein vollständiges Beispiel, das zeigt, wie man den Inhalt einer einfachen HTML-Seite extrahiert:
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)